扫码阅读
手机扫码阅读
超越α!PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT(华为诺亚)
117 2024-10-22
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
摘要:
本研究提出了PixArt-Σ,一种基于Diffusion Transformer(DiT)的文本到图像(T2I)扩散模型,能够直接生成4K分辨率高质量图像。PixArt-Σ的主要特点是通过“弱到强训练”策略,利用高质量数据和高效Token压缩,以小模型实现高质量图像生成。
关键改进:
- 整合了更高质量的训练数据,包括3300万高分辨率图像和更精确描述。
- 提出了高效Token压缩,有效减少计算需求,支持超高分辨率图像生成。
训练策略:
- 使用强大的变分自编码器(VAE)。
- 实现从低分辨率到高分辨率的微调。
- 从没有键值(KV)压缩的模型演化到有KV压缩的模型。
PixArt-Σ在模型大小和训练成本上都显著小于现有的T2I模型,同时在图像质量和文本对齐能力方面优于或接近顶级T2I产品。
评估与比较:
- 使用一个精心策划的数据集进行评估。
- 在人类和AI偏好研究中表现出色,与用户提示密切匹配。
结论:
PixArt-Σ展现了其在有限资源下整合新元素以提升模型性能的能力,并为个人研究人员和AIGC社区提供了一个高效、高质量的生成模型。
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
CVPR 2024 | 出手就是SOTA!扩散模型杀入部分监督多任务预测领域!(港科大)
点击下方卡片,关注“AI生成未来”>>后台回复“
YYDS!数字人终于实现穿、脱衣自由!上大、腾讯等提出3D服装合成新方法:ClotheDreamer
.点击下方卡片,关注“AI生成未来”>>后台回复??
能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据
点击下方卡片,关注“AI生成未来”>>后台回复“
还在花钱制作Logo?这几款免费AI生成Logo平台值得看看
1. AIDesign
传送门:https://ailogo.qq.com/guide/brandname
画?
如何科学评价视频生成模型?AIGCBench:全面可扩展的视频生成任务基准来了!
关注【AI生成未来】公众号,回复“GAI”,免费获取??
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线