击败SDXL登顶SOTA | CoMat:端到端的扩散模型微调策略(港中文/商汤/上海AI Lab)
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章摘要
本文介绍了CoMat,一种通过图像到文本概念匹配机制微调扩散模型的新策略,以提高文本到图像生成的对齐性能。CoMat利用图像描述模型来指导扩散模型关注被忽略的文本提示,并提出了属性集中模块以解决属性绑定问题。在不需要图像或人为标注数据的情况下,仅使用文本提示进行训练,CoMat在多个基准测试中取得了优于现有模型的性能。
介绍
尽管扩散模型在文本到图像生成方面取得了进展,但保持文本提示与生成图像的对齐仍是一项挑战。研究发现,对某些文本token的注意力不足是导致不对齐问题的原因。CoMat通过图像描述模型的监督,迫使扩散模型重新审视文本token,以改善文本-图像对齐。
相关工作
文本到图像对齐研究主要通过注意力机制、规划方法和利用图像理解模型的反馈来增强对齐。CoMat采用图像描述模型作为可微分奖励模型,直接利用描述生成器优化扩散模型。
方法
CoMat包括概念匹配、属性集中和保真度保持三个模块。通过图像描述模型评分提示和图像间对齐,引导扩散模型生成缺失概念。属性集中模块提高实体与其属性的对齐,而保真度保持部分通过鉴别器保持模型的生成能力。
实验
CoMat在T2I-CompBench和TIFA两个基准上取得了令人印象深刻的改善。它在多个子类别中展现出显著的增益,并在与其他模型的比较中表现优异。
限制与结论
本文的方法虽然在多方面优于基线模型,但将多模态大语言模型纳入方法中,以改善文本到图像扩散模型的精细对齐和生成保真度仍需进一步探究。希望本研究能激发未来对齐问题及其解决方案的进一步研究。
想要了解更多内容?