扫码阅读
手机扫码阅读

CVPR`24 | 真假难辨!CosmicMan:超实用的人物生成基础模型来了!(上海AI Lab)

20 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:CVPR`24 | 真假难辨!CosmicMan:超实用的人物生成基础模型来了!(上海AI Lab)
文章来源:
AI生成未来
扫码关注公众号
文章摘要

文章摘要

概述:本文介绍了CosmicMan,一个基于文本的高保真人物图像生成模型,能够产生与文本描述精确对齐的逼真人物图像。CosmicMan的成功依赖于新的数据生产范式 "Annotate Anyone" 和创新的训练框架 Daring。

关键创新:

  • 提出新的数据生产范式 "Annotate Anyone",通过人机协作不断产生高质量标注数据。
  • 构建了大规模数据集 CosmicMan-HQ 1.0,含600万高质量人物图像和1.15亿属性的精确文本标注。
  • 提出Daring训练框架,分解文本描述与图像像素间关系,无需额外模块即可强化注意力聚焦。

技术细节:

与其他模型相比,CosmicMan在人物图像生成领域填补了专用文本到图像基础模型的空缺。CosmicMan的关键元素包括高质量数据、可扩展数据生产和实用模型设计。新的数据生产范式 "Annotate Anyone" 结合了AI和人类专家,以动态、实时和经济的方式产生数据。CosmicMan-HQ 1.0数据集在人物中心数据方面具有规模优势和细粒度属性。Daring训练框架通过分解注意力特征图,确保了文本与图像之间的精确对齐。

实验结果:

CosmicMan在图像质量和文本-图像对齐方面优于现有模型,如Stable Diffusion和Imagen。它在2D和3D人物生成任务中展现了实用性和潜力。

未来工作:

CosmicMan旨在成为人物中心内容生成研究的长期和可持续的基础平台。未来工作将包括定期更新CosmicMan-HQ数据集和基于新数据版本训练的人物专用基础模型,以支持更广泛的研究社区。

相关链接:

文章链接:https://arxiv.org/pdf/2404.01294

开源地址:https://cosmicman-cvpr2024.github.io/

想要了解更多内容?

查看原文:CVPR`24 | 真假难辨!CosmicMan:超实用的人物生成基础模型来了!(上海AI Lab)
文章来源:
AI生成未来
扫码关注公众号