DALL-E 3不到50%，SDXL仅24.92%！各大SOTA文生图模型为啥这么难符合常识？

262 2024-10-25

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：DALL-E 3不到50%，SDXL仅24.92%！各大SOTA文生图模型为啥这么难符合常识？

文章来源：

AI生成未来

扫码关注公众号

本文通过引入一个新任务和基准Commonsense-T2I，来评估文本到图像（T2I）生成模型在常识推理能力方面的表现。Commonsense-T2I挑战模型产生与给定文本提示符合的图像，并且对比类似但含有不同常识的成对提示。这项工作对现有的T2I模型进行了基准测试，发现即使是先进的模型如DALL-E 3和SDXL在这项任务上的表现也远低于人类水平。

文章提出的Commonsense-T2I包括150个手动策划的示例，每个示例都有对抗性提示和对应的期望输出描述。数据集的构建涉及确定文本到图像生成所需的常识知识类别，使用GPT-4生成示例作为灵感，并手动策划测试样本。数据集还经过了质量控制，确保其高质量。

进行的实验包括对多种T2I模型的评估，以及对多模态大型语言模型（LLMs）作为自动评估器的测试。结果表明，多模态LLMs在自动评估方面具有与人类相近的性能，但T2I模型在处理常识推理方面仍存在不足。

分析表明，T2I模型可能受到文本embedding偏见的影响，导致生成图像的质量不高。此外，尽管GPT增强的提示能在一定程度上提供帮助，但仍然不能完全解决Commonsense-T2I的挑战。不同的T2I模型趋向于产生相同的错误，显示出它们在处理某些常识情况下的局限性。

总之，Commonsense-T2I旨在成为T2I常识检查的高质量评估基准，推动该领域的进一步发展。虽然研究受到了数据集规模和手动修订需求的限制，但Commonsense-T2I提供了未来研究的方向，特别是在生成大量弱监督数据方面。

想要了解更多内容？

查看原文：DALL-E 3不到50%，SDXL仅24.92%！各大SOTA文生图模型为啥这么难符合常识？

文章来源：

AI生成未来

扫码关注公众号