击败SDXL登顶SOTA | CoMat:端到端的扩散模型微调策略（港中文/商汤/上海AI Lab）

发布于 2024-10-22

333

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：击败SDXL登顶SOTA | CoMat:端到端的扩散模型微调策略（港中文/商汤/上海AI Lab）

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章摘要

本文介绍了CoMat，一种通过图像到文本概念匹配机制微调扩散模型的新策略，以提高文本到图像生成的对齐性能。CoMat利用图像描述模型来指导扩散模型关注被忽略的文本提示，并提出了属性集中模块以解决属性绑定问题。在不需要图像或人为标注数据的情况下，仅使用文本提示进行训练，CoMat在多个基准测试中取得了优于现有模型的性能。

介绍

尽管扩散模型在文本到图像生成方面取得了进展，但保持文本提示与生成图像的对齐仍是一项挑战。研究发现，对某些文本token的注意力不足是导致不对齐问题的原因。CoMat通过图像描述模型的监督，迫使扩散模型重新审视文本token，以改善文本-图像对齐。

相关工作

文本到图像对齐研究主要通过注意力机制、规划方法和利用图像理解模型的反馈来增强对齐。CoMat采用图像描述模型作为可微分奖励模型，直接利用描述生成器优化扩散模型。

方法

CoMat包括概念匹配、属性集中和保真度保持三个模块。通过图像描述模型评分提示和图像间对齐，引导扩散模型生成缺失概念。属性集中模块提高实体与其属性的对齐，而保真度保持部分通过鉴别器保持模型的生成能力。

实验

CoMat在T2I-CompBench和TIFA两个基准上取得了令人印象深刻的改善。它在多个子类别中展现出显著的增益，并在与其他模型的比较中表现优异。

限制与结论

本文的方法虽然在多方面优于基线模型，但将多模态大语言模型纳入方法中，以改善文本到图像扩散模型的精细对齐和生成保真度仍需进一步探究。希望本研究能激发未来对齐问题及其解决方案的进一步研究。

AI生成未来

查看原文：击败SDXL登顶SOTA | CoMat:端到端的扩散模型微调策略（港中文/商汤/上海AI Lab）

文章来源：

AI生成未来

扫码关注公众号

相关推荐

聊聊 ChatGPT 的逻辑架构与赚钱模式

748

模型 AI 架构抽象

先讲讲 ChatGPT 这一波AI浪潮的技术架构，再聊聊已经被验证可行的个人盈利模型。

AI震撼！OpenAI Sora视频模型引领互联网视频创作新时代

369

Sora 技术视频电影

大家好，今天我们要给大家介绍的是OpenAI的最新超级视频模型——Sora技术。

成龙的新电影《传说》扑街了，因为他们的AI换脸实在太抽象了。

363

AI 成龙电影换脸

如坐针毡、如芒刺背、如鲠在喉。

Pandas和Polars性能对决，为什么越来越多的专业人士开始使用Polars

627

date sales Polars Pandas

比较Pandas与Polars在数据处理性能上的差异。

使用Ollama和OpenWebUI，轻松探索Meta Llama3–8B

570

llama3 2024 04 model

介绍如何利用Ollama工具，实现Llama 3模型的本地部署与应用，以及通过Open WebUI进行模型交互的方法。

《三体》和ChatGPT的爆火，让人深思职场生存法则，升维还是转型？

226

三体人类文明降临

不要回答！不要回答！不要回答！

AIGC最新技术及资讯

207 篇文章

浏览 89.9K

AI生成未来的其他文章

效果超越ControlNet+IP-Adapter和FreeControl！Ctrl-X：可控文生图新框架（加州大学&英伟达）

点击下方卡片，关注“AI生成未来”>>后台回复“

完美提升Stable Diffusion生成质量和效率！UniFL:统一反馈学习框架（字节&中山）

点击下方卡片，关注“AI生成未来”>>后台回复“

如何高效定制视频扩散模型？卡内基梅隆提出VADER：通过奖励梯度进行视频扩散对齐

点击下方卡片，关注“AI生成未来”>>后台回复“

DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D

点击下方卡片，关注“AI生成未来”>>后台回复“

遮挡目标分割、识别和3D重建新希望！Pix2gestalt：三项任务SOTA！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

随机阅读

聊聊故事点背后的故事

解读微信团队的七个价值观

采用Minitab进行logistic回归分析

各阶段缺陷检出密度的统计分析案例

如何近似计算回归方程的预测区间？

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线