扫码阅读

手机扫码阅读

图像生成/编辑应用落地必不可少！MuLAn：首个实例级RGBA分解数据集（华为诺亚）

414 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：图像生成/编辑应用落地必不可少！MuLAn：首个实例级RGBA分解数据集（华为诺亚）

文章来源：

AI生成未来

扫码关注公众号

MuLAn Dataset Summary

摘要

本文介绍了一个名为MuLAn的新型数据集，它包含超过44K个多层、实例级别的RGB图像的RGBA分解，以及超过100K个实例图像。MuLAn数据集通过一个无需训练的pipeline来构建，利用预训练的通用模型和三个模块：图像分解、实例补全和图像重组，解决了文本到图像生成中的精确空间可控性和prompt保真度问题。MuLAn数据集包括MuLAn-COCO和MuLAn-LAION两个子集，提供了丰富的场景分解信息和实例一致性，为生成和编辑技术的发展开辟了新途径。

介绍

文本到图像生成技术尽管取得了进展，但在保持图像外观和构成的精确可控性方面仍面临挑战。为了解决这些限制，本研究提出了一个多层RGBA图像分解的pipeline，通过实例发现、排序、提取和补全，再将图像重新组装为RGBA堆栈，最终构建了MuLAn数据集。

图像分解pipeline

图像分解pipeline包括三个主要模块：实例提取、补全和重组。通过目标检测、分割、深度估计和实例排序，准确地提取并隔离图像中的所有实例。然后，利用最先进的文本到图像生成模型修补被遮挡的实例区域。最后，将所有单独的RGB图像重新组装成一个有序的RGBA堆栈，以生成接近原始输入图像的图像。

数据集构建和分析

通过在COCO和LAION数据集上运行pipeline，构建了MuLAn数据集。在数据筛选过程中，通过人工检查和分类器自动标注，排除了低质量的图像分解。MuLAn数据集展现了丰富的场景分布和多样性，包括不同风格、实例数量和类型的图像。

数据集应用

MuLAn数据集的两个潜在应用包括RGBA图像生成和实例添加。通过微调现有模型，MuLAn数据集展示了在生成具有透明通道的图像和无缝添加或移除图像中实例方面的优势。

结论

本文的MuLAn数据集为文本到图像生成AI研究提供了新的研究途径。通过深入分析pipeline的失败模式，本研究展望了未来的研究方向，包括改进性能和扩大数据集规模。MuLAn的发布促进了更高质量的图像生成和精确的实例层级编辑技术的开发。

参考文献

[1] MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation

想要了解更多内容？

查看原文：图像生成/编辑应用落地必不可少！MuLAn：首个实例级RGBA分解数据集（华为诺亚）

文章来源：

AI生成未来

扫码关注公众号

相关推荐

替代还是共生？LLM时代软件从业者的机遇与进化

1445

软件 LLM 代码软件工程

LLM时代对软件研发的思考：替代的是码农，共生的是工程师

【内含文件】有赞产品AI化的五条底层原则

499

这三个文档，相信能对你做SaaS产品有更多的思考。

我用最顶级的AI画质，重制了我的《流浪地球3》AI预告片...

291

AI 预告片视频重制

流浪地球啊...他真的彻底改变了我的人生轨迹...

结合Transformer与Mamba，Jamba来了！

261

AI 模型 https GPT

Grok 重大升级马斯克的人工智能初创公司X.ai推出了Grok-1.5，Grok聊天机器人的升级版AI模型。

OpenAI 推出 GPT-4o，"魔法" 是否成真？

374

击下方卡片，关注“AI生成未来”>>后台回复“GAI

AIGC创收副业案例03：基于GPT4图文短视频流量变现玩法

539

AI 图片流量账号

快速收割短视频流量且变现的方法

AIGC最新技术及资讯

160 篇文章

浏览 79.9K

AI生成未来的其他文章

免费图片无损放大：8大平台突破画质极限

之前介绍过图片提高清晰度的工具平台，这次AIGCer介?

模糊文字如何恢复高清？效果惊艳的基于扩散模型的文本图像超分辨率技术

作者：Yuzhe Zhang等解读：AIGCer 恢复低分辨率文本图像

扩散模型中进行条件插值？AID:无需训练，保证一致、平滑和保真度(新加坡国立&南洋理工)

点击下方卡片，关注“AI生成未来”>>后台回复“

实例级图像生成最新SOTA！InstanceDiffusion：文本到实例图像生成控制方法

关注【AI生成未来】公众号，回复“GAI”，免费获取??

勇夺三项SOTA！北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo！

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

案例：缺陷状态数据分析

如何近似计算回归方程的预测区间？

如何度量项目的总体进展？

对比分析偏差率的五个常见疑问

普通原因与特殊原因的区别

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线