扫码阅读
手机扫码阅读

精细化图像编辑!LocInv:优化交叉注意力泄漏问题(国科大&巴塞罗那自治大学)

54 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

摘要

本文提出了一种名为定位感知反演(LocInv)的方法,它通过分割图或边界框作为定位先验,优化基于大规模文本到图像(T2I)扩散模型的图像编辑技术。LocInv动态更新文本输入中的名词token,以精确编辑特定对象并防止意外地改变其他区域。该方法在COCO数据集的子集上定量和定性评估表现出色。

介绍

T2I模型能够生成多样和逼真的图像,但通常不支持精确图像编辑。最新的文本引导图像编辑研究仅使用文本prompt进行操作,但存在准确性问题。本文的LocInv方法利用定位先验来强化交叉注意力图,从而提高编辑的精确度。

相关工作

反演编辑技术依赖于DDIM反演,但在应用无分类器指导(CFG)时存在限制。基于文本的分割和检测模型取得了进展,为图像编辑提供了强大的定位先验。

方法

LocInv通过更新与对象相关的token表示,并结合相似性损失和重叠损失,确保交叉注意力图与定位先验紧密对齐。同时,引入形容词绑定损失,增强形容词与对应名词的联系,以支持属性编辑。

实验

在COCO-edit数据集上的消融实验和图像编辑评估表明,LocInv在交叉注意力图的质量和图像编辑任务中均优于现有方法。特别是在属性编辑方面,LocInv能够更准确地修改对象的属性。

结论

LocInv通过使用定位感知的反演技术,有效解决了图像编辑中的交叉注意力泄漏问题,实验结果证明了其在复杂场景中的优越性能和对属性编辑的支持。

想要了解更多内容?