文本生成图像新SOTA!RealCompo:逼真和构图的动态平衡(清北最新)
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章摘要
RealCompo是一个新的文本到图像生成框架,它结合了文本到图像(T2I)和布局到图像(L2I)模型的优势,以提高生成图像的逼真度和组合性。该框架不需要额外训练,易于迁移,并且引入了一个平衡器,动态平衡两种模型的优势。实验证明,RealCompo在多对象组合生成方面超越了现有技术,同时保持了图像的逼真度和组合性。
研究背景和初步实验
文本到图像生成领域因扩散模型而取得显著进步,尤其是在处理单一对象时。然而,当涉及到生成多个对象或复杂关系时,现有的T2I模型往往无法准确呈现文本提示中指定的对象组合。通过引入对象布局作为辅助输入,L2I模型在控制对象位置方面表现出色,但逼真度上仍有不足。初步实验显示,T2I模型在理解对象间的空间关系上存在不足,而L2I模型则过度关注布局限制,导致生成的图像在逼真度和属性绑定上存在欠缺。
RealCompo框架介绍
RealCompo框架通过大语言模型(LLM)推理出的布局和预绑定的属性,以及一个创新的平衡器,结合了预训练的L2I和T2I模型。这个平衡器通过分析交叉注意力图,自动调整两个模型在每个去噪步骤中的影响,实现了图像生成的逼真度和组合性之间的动态平衡。这种方法能够无需额外训练即可在任何模型间实现平滑过渡,有效提升了图像生成的质量。
相关工作
在文本到图像生成方面,尽管T2I模型如Stable Diffusion等展现出强大的生成能力,但在处理多对象场景时仍存在限制。研究者尝试通过引入额外的模态来解决这一问题,但通常以牺牲逼真度为代价。组合式生成技术通过交叉注意力图或布局约束来改善生成图像与语义的一致性,但仍有待提升。
实验结果
RealCompo与现有的T2I和L2I模型进行了比较,结果显示它在属性绑定、数字精度和非空间关系等方面均取得了最佳性能。消融实验进一步验证了RealCompo对不同模型的适用性,展示了它在结合T2I和L2I模型优势方面的灵活性。
结论
RealCompo通过动态平衡T2I和L2I模型的优势,成功解决了文本到图像生成中的多对象组合挑战,实现了领先水平的生成效果。未来工作将继续优化该框架,使用更强大的模型,并探索其在更复杂模态下的应用。
想要了解更多内容?