扫码阅读
手机扫码阅读

兼顾身份保护和文本对齐!中山大学等提出CoRe:任意提示的文本到图像个性化生成!

55 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

文章摘要

文章摘要

亮点直击

本研究提出的CoRe技术专注于提升文本到图像个性化生成的效能,尤其在保持身份特征和文本对齐方面表现出色。CoRe主要用于输出embedding和注意力图,无需生成图像,适用于任意提示,并在人脸个性化生成方面相较于其他方法保留了更多的身份特征。

方法

CoRe通过上下文正则化增强新概念文本embedding的学习,确保新概念的输入embedding与现有token正确交互。通过构建正则化提示语集并施加输出embedding和注意力图的相似性约束,CoRe提高了文本embedding的泛化能力。此外,研究还包括了embedding重缩放和针对身份的训练策略,以及在测试时的优化策略。

实验

研究者们使用24个概念和多个文本提示语进行了全面评估,比较了CoRe和其他基线方法。结果显示,CoRe在视觉相似性和文本对齐方面优于其他方法。此外,通过用户研究,参与者对CoRe生成的图像给予了更高的偏好评价。

结果

CoRe在保留概念身份和对齐于复杂提示语方面表现出色。在人脸个性化方面,CoRe也优于专门的人脸个性化方法。消融研究进一步证实了CoRe各子模块的有效性。

结论与局限性

CoRe通过正则化上下文token提升了新概念的文本embedding学习,并在多个评估指标上超越了基线方法。尽管如此,CoRe在学习复杂概念组合方面仍存在挑战,这些限制部分源自预训练模型。

致谢

作者感谢读者的支持,并邀请大家参与讨论和交流,共同探索AI生成技术的未来。

想要了解更多内容?