你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
本文介绍了EMMA,一个基于文本到图像扩散模型ELLA构建的新型图像生成模型,它能够结合多模态提示进行图像生成。EMMA通过一个创新的多模态特征连接器设计来无缝结合文本和其他模态信息,提供了一个灵活有效的工具,用于生成个性化和情境感知的图像和视频。
EMMA的主要贡献包括多模态提示的创新集成机制、模块化且高效的模型训练、通用兼容性和适应性以及稳健的性能和细节保留。特别是,EMMA支持以模块化方式组装,适配不同条件,无需重新训练即可生成基于多模态条件的图像。
方法
EMMA模型由文本编码器、图像生成器和多模态特征连接器三个主要组件组成。它使用特殊的注意力机制和门控机制来整合文本和补充模态信息,使得可以在保持文本控制的同时融合其他模态特征。
通过固定原T2I扩散模型中的所有参数,并仅调整一些附加层,EMMA展现了预训练的T2I模型接受多模态提示的潜力。此外,研究者们还引入了一种策略来组合已学习的EMMA模块,以便生成受多个条件约束的图像,无需额外训练。
实验
通过对风格条件生成和肖像生成进行定量评估,EMMA在保持高保真度和细节的同时,展现了出色的性能。实验结果表明,EMMA模型在多条件图像生成任务上优于现有方法。可视化实验进一步证实了EMMA在多条件下生成图像的能力,以及在不同条件下调节特征整合的门控值的有效性。
结论
EMMA模型在多模态图像生成领域设立了新的基准,展现了创新方法和强大的适应性。尽管当前只能处理英文提示,研究者们计划将其扩展到支持多语言提示的模型,以推动AI驱动内容创作的下一波创新。
想要了解更多内容?