扫码阅读

手机扫码阅读

自回归扳回一城！阿里等提出MARS：超越PixArt-α、SD-XL等的文本到图像生成框架

313 2024-10-25

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：自回归扳回一城！阿里等提出MARS：超越PixArt-α、SD-XL等的文本到图像生成框架

文章来源：

AI生成未来

扫码关注公众号

MARS框架摘要

亮点直击

MARS是一个改编自自回归预训练大语言模型(LLM)的框架，专门用于文本到图像(T2I)生成任务。它通过SemVIE模块结合了NLP能力和先进的视觉生成，展现了在多项评估指标上的卓越表现，包括中英双语能力。

框架介绍

MARS结合了语义视觉语言集成专家(SemVIE)来整合预训练的LLM，保留语言处理能力的同时赋予优秀的视觉理解能力。它采用了多阶段训练策略，通过图文对齐和细化文本到图像的生成过程，提高了生成图像的同步性和细节质量。

方法

总体框架

MARS是一个多模态架构，平衡了视觉和语言专家模型，通过并行结构设计保持了跨模态的一致性。语言和视觉模块同时初始化，训练阶段语言组件保持静止，仅优化视觉领域内的选定权重。

语义视觉语言集成专家

SemVIE是MARS的核心，包含Attention-MoE和FFN-MoE模块，通过路由机制将输入token分配给最适合处理的专家模型。模块的集成提高了多模态数据流的有效融合。

多阶段细化

MARS的训练分为三个阶段，从初步的文本到图像生成，到高质量数据对齐，再到高分辨率细化，逐步提升了生成图像的质量和文本对齐度。

数据集构建

研究中使用了多个开源英文数据集，并进行了过滤和选择，以建立一个包含1.5亿对图像-文本的语料库。还包括了中文标题的图像-文本对，总计约2亿对。

实验

实验细节

实验使用AdamW优化器，设置适当的学习率和预热策略，并利用DeepSpeed的ZeRO-3优化进行训练。

性能比较与分析

MARS在MSCOCO基准和T2I-CompBench评估中展示了出色的性能。用户研究表明，MARS在质量和对齐方面相比其他模型具有更高的投票偏好。

视觉分析与多语言生成

MARS表现出高级图像合成能力，能够生成符合文本描述的细致图像，且在中文文本到图像合成方面同样表现出色。

结论

MARS是一个结合了预训练LLM能力的创新自回归框架，其在T2I任务中的表现出色，可用于中英双语图像生成，以及联合图像-文本生成任务，展示了其在不同应用领域的潜力。

想要了解更多内容？

查看原文：自回归扳回一城！阿里等提出MARS：超越PixArt-α、SD-XL等的文本到图像生成框架

文章来源：

AI生成未来

扫码关注公众号

相关推荐

机器人流程自动化 (RPA)

408

RPA 自动化流程机器人

机器人流程自动化 (RPA) 是一种模仿人类与软件交互方式来执行大批量、可重复任务的技术。

我让AI重新设计了各大国家的奥运队服，中国队的我吹爆。

239

队服 AI Midjourney ChatGPT

一次小小的创作。

ChatGPT全面暂停PLUS订阅 - 因成功而受苦

427

ChatGPT 用户 OpenAI 。。。

大中午的，奥特曼又整幺蛾子了

与AI进行一场跨越一生的对话，是一种什么样的体验？

263

AI 对话差点一段

前方高能预警

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

823

击下方卡片，关注“AI生成未来”>>后台回复“GAI

图片去除背景，无水印下载的六大免费平台！

276

随着人工智能技术的不断进步，越来越多的应用场景?

AI生成未来

AIGC最新技术及资讯

159 篇文章

浏览 71.2K

AI生成未来的其他文章

2024年了,Diffusion模型还有什么可做的？

点击下方卡片，关注“AI生成未来”>>后台回复“

Control Color：图像着色新SOTA！南洋理工大学最新

点击上方蓝字，关注 AI 生成未来，干货不停后台回?

完美提升Stable Diffusion生成质量和效率！UniFL:统一反馈学习框架（字节&中山）

点击下方卡片，关注“AI生成未来”>>后台回复“

SD和Sora们背后的关键技术！一文搞懂所有 VAE 模型（4个AE+12个VAE原理汇总）

点击下方卡片，关注“AI生成未来”>>关注【AI生

风格控制水平创新高！南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架

点击下方卡片，关注“AI生成未来”作者：Peng Xing等

随机阅读

一表搞定最小可行产品（MVP）与最小可市场化特性（MMF）

10-01

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

自回归扳回一城！阿里等提出MARS：超越PixArt-α、SD-XL等的文本到图像生成框架

亮点直击

框架介绍

方法