扫码阅读
手机扫码阅读

自回归扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到图像生成框架

42 2024-10-25

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:自回归扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到图像生成框架
文章来源:
AI生成未来
扫码关注公众号
MARS框架摘要

亮点直击

MARS是一个改编自自回归预训练大语言模型(LLM)的框架,专门用于文本到图像(T2I)生成任务。它通过SemVIE模块结合了NLP能力和先进的视觉生成,展现了在多项评估指标上的卓越表现,包括中英双语能力。

框架介绍

MARS结合了语义视觉语言集成专家(SemVIE)来整合预训练的LLM,保留语言处理能力的同时赋予优秀的视觉理解能力。它采用了多阶段训练策略,通过图文对齐和细化文本到图像的生成过程,提高了生成图像的同步性和细节质量。

方法

总体框架

MARS是一个多模态架构,平衡了视觉和语言专家模型,通过并行结构设计保持了跨模态的一致性。语言和视觉模块同时初始化,训练阶段语言组件保持静止,仅优化视觉领域内的选定权重。

语义视觉语言集成专家

SemVIE是MARS的核心,包含Attention-MoE和FFN-MoE模块,通过路由机制将输入token分配给最适合处理的专家模型。模块的集成提高了多模态数据流的有效融合。

多阶段细化

MARS的训练分为三个阶段,从初步的文本到图像生成,到高质量数据对齐,再到高分辨率细化,逐步提升了生成图像的质量和文本对齐度。

数据集构建

研究中使用了多个开源英文数据集,并进行了过滤和选择,以建立一个包含1.5亿对图像-文本的语料库。还包括了中文标题的图像-文本对,总计约2亿对。

实验

实验细节

实验使用AdamW优化器,设置适当的学习率和预热策略,并利用DeepSpeed的ZeRO-3优化进行训练。

性能比较与分析

MARS在MSCOCO基准和T2I-CompBench评估中展示了出色的性能。用户研究表明,MARS在质量和对齐方面相比其他模型具有更高的投票偏好。

视觉分析与多语言生成

MARS表现出高级图像合成能力,能够生成符合文本描述的细致图像,且在中文文本到图像合成方面同样表现出色。

结论

MARS是一个结合了预训练LLM能力的创新自回归框架,其在T2I任务中的表现出色,可用于中英双语图像生成,以及联合图像-文本生成任务,展示了其在不同应用领域的潜力。

想要了解更多内容?

查看原文:自回归扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到图像生成框架
文章来源:
AI生成未来
扫码关注公众号