扫码阅读

手机扫码阅读

你的文生图模型可以秘密接收多模态提示了！南洋理工&腾讯最新提出EMMA

309 2024-10-26

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：你的文生图模型可以秘密接收多模态提示了！南洋理工&腾讯最新提出EMMA

文章来源：

AI生成未来

扫码关注公众号

摘要

本文介绍了EMMA，一个基于文本到图像扩散模型ELLA构建的新型图像生成模型，它能够结合多模态提示进行图像生成。EMMA通过一个创新的多模态特征连接器设计来无缝结合文本和其他模态信息，提供了一个灵活有效的工具，用于生成个性化和情境感知的图像和视频。

EMMA的主要贡献包括多模态提示的创新集成机制、模块化且高效的模型训练、通用兼容性和适应性以及稳健的性能和细节保留。特别是，EMMA支持以模块化方式组装，适配不同条件，无需重新训练即可生成基于多模态条件的图像。

方法

EMMA模型由文本编码器、图像生成器和多模态特征连接器三个主要组件组成。它使用特殊的注意力机制和门控机制来整合文本和补充模态信息，使得可以在保持文本控制的同时融合其他模态特征。

通过固定原T2I扩散模型中的所有参数，并仅调整一些附加层，EMMA展现了预训练的T2I模型接受多模态提示的潜力。此外，研究者们还引入了一种策略来组合已学习的EMMA模块，以便生成受多个条件约束的图像，无需额外训练。

实验

通过对风格条件生成和肖像生成进行定量评估，EMMA在保持高保真度和细节的同时，展现了出色的性能。实验结果表明，EMMA模型在多条件图像生成任务上优于现有方法。可视化实验进一步证实了EMMA在多条件下生成图像的能力，以及在不同条件下调节特征整合的门控值的有效性。

结论

EMMA模型在多模态图像生成领域设立了新的基准，展现了创新方法和强大的适应性。尽管当前只能处理英文提示，研究者们计划将其扩展到支持多语言提示的模型，以推动AI驱动内容创作的下一波创新。

想要了解更多内容？

查看原文：你的文生图模型可以秘密接收多模态提示了！南洋理工&腾讯最新提出EMMA

文章来源：

AI生成未来

扫码关注公众号

相关推荐

项目目经理进阶必修的第五项修炼：系统思考

588

系统思考项目经理项目管理

系统思考

一款国产免费AI绘画软件

408

福利快来

11个2024年最值得尝试的AI编程助手

762

AI 代码编码助手

介绍11个AI编码助手，帮助开发者选择合适的工具。

字节&UC伯克利新研究 | Magic-Me：简单有效的主题ID可控视频生成框架

336

关注【AI生成未来】公众号，回复“GAI”，免费获取??

2024诺贝尔经济学奖公布，竟也和AI有关？

288

经济学领域AI研究的先锋人物。北京时间2024年10月14

如何过好自己的一生？看完deepseek的回答我悟了…

AI 人生体验文宇

让AI成为你的“生活润色剂”，而不是“焦虑制造机”。

AI生成未来

AIGC最新技术及资讯

159 篇文章

浏览 69K

AI生成未来的其他文章

如何科学评价视频生成模型？AIGCBench：全面可扩展的视频生成任务基准来了！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

长视频生成又有重大突破！DreamFactory：一致、连贯且引人入胜的长视频生成框架

点击下方卡片，关注“AI生成未来”>>后台回复“

2024年了,Diffusion模型还有什么可做的？

点击下方卡片，关注“AI生成未来”>>后台回复“

FDGaussian:又快又好的三维重建方案 | Gaussian Splatting和扩散模型超强联合

点击下方卡片，关注“AI生成未来”>>后台回复“

一键删除图片多余物体，AI轻松修饰图片

在图片编辑的世界里，我们时常需要与多余的物体“?

随机阅读

和任老师聊聊质量工作

10-01

3分钟弄懂CMMI2.0基准评估的抽样规则

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

你的文生图模型可以秘密接收多模态提示了！南洋理工&腾讯最新提出EMMA

摘要

方法

实验

结论

联系我们

融实践库

微信公众号

微信视频号

社区微信群

你的文生图模型可以秘密接收多模态提示了！南洋理工&腾讯最新提出EMMA

摘要

方法

实验

结论

敏捷宣言最误人

联系我们

融实践库

微信公众号

微信视频号

社区微信群