扫码阅读
手机扫码阅读

图像生成/编辑应用落地必不可少!MuLAn:首个实例级RGBA分解数据集(华为诺亚)

171 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

MuLAn Dataset Summary

摘要

本文介绍了一个名为MuLAn的新型数据集,它包含超过44K个多层、实例级别的RGB图像的RGBA分解,以及超过100K个实例图像。MuLAn数据集通过一个无需训练的pipeline来构建,利用预训练的通用模型和三个模块:图像分解、实例补全和图像重组,解决了文本到图像生成中的精确空间可控性和prompt保真度问题。MuLAn数据集包括MuLAn-COCO和MuLAn-LAION两个子集,提供了丰富的场景分解信息和实例一致性,为生成和编辑技术的发展开辟了新途径。

介绍

文本到图像生成技术尽管取得了进展,但在保持图像外观和构成的精确可控性方面仍面临挑战。为了解决这些限制,本研究提出了一个多层RGBA图像分解的pipeline,通过实例发现、排序、提取和补全,再将图像重新组装为RGBA堆栈,最终构建了MuLAn数据集。

图像分解pipeline

图像分解pipeline包括三个主要模块:实例提取、补全和重组。通过目标检测、分割、深度估计和实例排序,准确地提取并隔离图像中的所有实例。然后,利用最先进的文本到图像生成模型修补被遮挡的实例区域。最后,将所有单独的RGB图像重新组装成一个有序的RGBA堆栈,以生成接近原始输入图像的图像。

数据集构建和分析

通过在COCO和LAION数据集上运行pipeline,构建了MuLAn数据集。在数据筛选过程中,通过人工检查和分类器自动标注,排除了低质量的图像分解。MuLAn数据集展现了丰富的场景分布和多样性,包括不同风格、实例数量和类型的图像。

数据集应用

MuLAn数据集的两个潜在应用包括RGBA图像生成和实例添加。通过微调现有模型,MuLAn数据集展示了在生成具有透明通道的图像和无缝添加或移除图像中实例方面的优势。

结论

本文的MuLAn数据集为文本到图像生成AI研究提供了新的研究途径。通过深入分析pipeline的失败模式,本研究展望了未来的研究方向,包括改进性能和扩大数据集规模。MuLAn的发布促进了更高质量的图像生成和精确的实例层级编辑技术的开发。

参考文献

[1] MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation

想要了解更多内容?