精度提升10个点!HD-Painter:无需训练的文本引导高分辨率图像修复方案!
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models
摘要
HD-Painter是一种新型的无需训练的文本引导图像修复方法,它利用扩散模型,在修复过程中实现了与用户提示的更好对齐和高分辨率图像的补全。这一方法的核心是引入了Prompt-Aware Introverted Attention(PAIntA)层和Reweighting Attention Score Guidance(RASG)机制,它们能够提高文本对齐性和防止潜在分布偏移,从而生成视觉上逼真的结果。
引言
文本到图像的扩散模型取得了显著进步,使得基于文本提示的图像编辑成为可能。尽管现有方法能够生成视觉上协调的补全效果,但在理解全局场景和高分辨率补全方面仍有不足。本文提出了HD-Painter,利用PAIntA和RASG机制,无需训练即可更好地与文本提示对齐,并实现高分辨率图像补全。
相关工作
图像修复的研究始于使用深度学习方法传播已知区域的深度特征,后来引入了扩散模型。现有的文本引导图像修复方法通过微调预训练模型来融合已知区域和生成的区域。本文提出的方法不需要训练,通过PAIntA和RASG组件改善文本提示对齐,并支持高分辨率图像修复。
方法
HD-Painter首先在较低分辨率上进行文本引导的图像修复,随后通过专门技术处理实现高分辨率补全。PAIntA层通过提示信息增强自注意力分数,而RASG机制通过重量化注意力分数来引导采样,保持生成在训练域内。此外,本方法支持高达2048×2048分辨率的图像修复。
实验
实验表明,HD-Painter在定性和定量上都优于现有方法。本方法在CLIP分数和生成准确率上都有显著提升,且用户研究也证实了其在提示对齐和整体质量方面的优越性。
结论
HD-Painter通过PAIntA和RASG组件有效地解决了文本引导图像修复中的提示忽略问题,实现了高分辨率和与文本提示高度一致的图像修复,超越了当前的最先进方法。
想要了解更多内容?