扫码阅读
手机扫码阅读
CVPR`24 | 真假难辨!CosmicMan:超实用的人物生成基础模型来了!(上海AI Lab)
183 2024-10-22
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
文章摘要
概述:本文介绍了CosmicMan,一个基于文本的高保真人物图像生成模型,能够产生与文本描述精确对齐的逼真人物图像。CosmicMan的成功依赖于新的数据生产范式 "Annotate Anyone" 和创新的训练框架 Daring。
关键创新:
- 提出新的数据生产范式 "Annotate Anyone",通过人机协作不断产生高质量标注数据。
- 构建了大规模数据集 CosmicMan-HQ 1.0,含600万高质量人物图像和1.15亿属性的精确文本标注。
- 提出Daring训练框架,分解文本描述与图像像素间关系,无需额外模块即可强化注意力聚焦。
技术细节:
与其他模型相比,CosmicMan在人物图像生成领域填补了专用文本到图像基础模型的空缺。CosmicMan的关键元素包括高质量数据、可扩展数据生产和实用模型设计。新的数据生产范式 "Annotate Anyone" 结合了AI和人类专家,以动态、实时和经济的方式产生数据。CosmicMan-HQ 1.0数据集在人物中心数据方面具有规模优势和细粒度属性。Daring训练框架通过分解注意力特征图,确保了文本与图像之间的精确对齐。
实验结果:
CosmicMan在图像质量和文本-图像对齐方面优于现有模型,如Stable Diffusion和Imagen。它在2D和3D人物生成任务中展现了实用性和潜力。
未来工作:
CosmicMan旨在成为人物中心内容生成研究的长期和可持续的基础平台。未来工作将包括定期更新CosmicMan-HQ数据集和基于新数据版本训练的人物专用基础模型,以支持更广泛的研究社区。
相关链接:
文章链接:https://arxiv.org/pdf/2404.01294
开源地址:https://cosmicman-cvpr2024.github.io/
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线