扫码阅读
手机扫码阅读

DALL-E 3不到50%,SDXL仅24.92%!各大SOTA文生图模型为啥这么难符合常识?

112 2024-10-25

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:DALL-E 3不到50%,SDXL仅24.92%!各大SOTA文生图模型为啥这么难符合常识?
文章来源:
AI生成未来
扫码关注公众号

本文通过引入一个新任务和基准Commonsense-T2I,来评估文本到图像(T2I)生成模型在常识推理能力方面的表现。Commonsense-T2I挑战模型产生与给定文本提示符合的图像,并且对比类似但含有不同常识的成对提示。这项工作对现有的T2I模型进行了基准测试,发现即使是先进的模型如DALL-E 3和SDXL在这项任务上的表现也远低于人类水平。

文章提出的Commonsense-T2I包括150个手动策划的示例,每个示例都有对抗性提示和对应的期望输出描述。数据集的构建涉及确定文本到图像生成所需的常识知识类别,使用GPT-4生成示例作为灵感,并手动策划测试样本。数据集还经过了质量控制,确保其高质量。

进行的实验包括对多种T2I模型的评估,以及对多模态大型语言模型(LLMs)作为自动评估器的测试。结果表明,多模态LLMs在自动评估方面具有与人类相近的性能,但T2I模型在处理常识推理方面仍存在不足。

分析表明,T2I模型可能受到文本embedding偏见的影响,导致生成图像的质量不高。此外,尽管GPT增强的提示能在一定程度上提供帮助,但仍然不能完全解决Commonsense-T2I的挑战。不同的T2I模型趋向于产生相同的错误,显示出它们在处理某些常识情况下的局限性。

总之,Commonsense-T2I旨在成为T2I常识检查的高质量评估基准,推动该领域的进一步发展。虽然研究受到了数据集规模和手动修订需求的限制,但Commonsense-T2I提供了未来研究的方向,特别是在生成大量弱监督数据方面。

想要了解更多内容?

查看原文:DALL-E 3不到50%,SDXL仅24.92%!各大SOTA文生图模型为啥这么难符合常识?
文章来源:
AI生成未来
扫码关注公众号