精细化图像编辑！LocInv：优化交叉注意力泄漏问题（国科大&巴塞罗那自治大学）

发布于 2024-10-22

323

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：精细化图像编辑！LocInv：优化交叉注意力泄漏问题（国科大&巴塞罗那自治大学）

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

摘要

本文提出了一种名为定位感知反演（LocInv）的方法，它通过分割图或边界框作为定位先验，优化基于大规模文本到图像（T2I）扩散模型的图像编辑技术。LocInv动态更新文本输入中的名词token，以精确编辑特定对象并防止意外地改变其他区域。该方法在COCO数据集的子集上定量和定性评估表现出色。

介绍

T2I模型能够生成多样和逼真的图像，但通常不支持精确图像编辑。最新的文本引导图像编辑研究仅使用文本prompt进行操作，但存在准确性问题。本文的LocInv方法利用定位先验来强化交叉注意力图，从而提高编辑的精确度。

方法

LocInv通过更新与对象相关的token表示，并结合相似性损失和重叠损失，确保交叉注意力图与定位先验紧密对齐。同时，引入形容词绑定损失，增强形容词与对应名词的联系，以支持属性编辑。

实验

在COCO-edit数据集上的消融实验和图像编辑评估表明，LocInv在交叉注意力图的质量和图像编辑任务中均优于现有方法。特别是在属性编辑方面，LocInv能够更准确地修改对象的属性。

结论

LocInv通过使用定位感知的反演技术，有效解决了图像编辑中的交叉注意力泄漏问题，实验结果证明了其在复杂场景中的优越性能和对属性编辑的支持。

AI生成未来

查看原文：精细化图像编辑！LocInv：优化交叉注意力泄漏问题（国科大&巴塞罗那自治大学）

文章来源：

AI生成未来

扫码关注公众号

相关推荐

麻瓜+AI混合工作流试验 3：周末瞎想，一切都在赋能AI

688

周末继续密集玩AI，据说这种症状会持续一个月

站在山巅看 GPT 推动的井喷式 AI 浪潮

718

GPT 技术语言 Transformer

本轮技术热潮的起爆点，我认为是GPT技术，今天我就带着你从底层技术的视角，看看这个小树苗如何长成枝繁叶茂的参天大树。

ChatGPT的官方 APP来了

751

App ChatGPT 版本账号

ChatGPT,IOS App，官方

力压Transformer，详解Mamba和状态空间模型（上）

746

状态模型 Transformer 架构

介绍Mamba和状态空间模型。

AI绘画要变天？！我被即梦的新功能硬控了一整天

218

AI 生成提示海报

即梦生成海报功能相当炸裂，设计师要下岗了？

第一个包含百万图像文本对的时尚数据集

图像时尚文本生成

文本驱动的时尚合成和设计是AIGC中极为有价值的一部

AI生成未来

AIGC最新技术及资讯

207 篇文章

浏览 87.9K

AI生成未来的其他文章

CVPR`24 | FRESCO：高质量、连贯的Zero-shot视频转换新方案（北大&南洋理工）

点击下方卡片，关注“AI生成未来”>>后台回复“

像俄罗斯方块一样生成视频！北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频！

点击下方卡片，关注“AI生成未来”>>后台回复“

ECCV`24 | 艺术文本和场景文本分割任务新SOTA 方法！华科&Adobe提出WAS！

点击下方卡片，关注“AI生成未来”>>后台回复“

击败SDXL登顶SOTA | CoMat:端到端的扩散模型微调策略（港中文/商汤/上海AI Lab）

点击下方卡片，关注“AI生成未来”>>后台回复“

6款AI商品海报创作神器，让设计创意无限！

曾经，为了展现物品的美好，我们煞费苦心地设计造?

随机阅读

3分钟弄懂CMMI2.0基准评估的抽样规则

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

精细化图像编辑！LocInv：优化交叉注意力泄漏问题（国科大&巴塞罗那自治大学）

版权声明

摘要

介绍

相关工作

方法

实验

结论

联系我们

融实践库

微信公众号

微信视频号

社区微信群

精细化图像编辑！LocInv：优化交叉注意力泄漏问题（国科大&巴塞罗那自治大学）

版权声明

摘要

介绍

相关工作

方法

实验

结论

什么样的产品算是好产品？

联系我们

融实践库

微信公众号

微信视频号

社区微信群