扫码阅读
手机扫码阅读

ECCV`24 | 少步比多步好?TurboEdit:少步扩散和解耦控制的实时精确图像编辑(Adobe出品)

167 2024-10-25

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

摘要

本文介绍了一种基于编码器的迭代反演技术,用于精确图像反演和分解图像编辑。该方法需要的功能评估次数远少于传统多步扩散模型方法,大幅提升了速度和效率,并在保持背景以及文本图像对齐方面展现出较好的效果。

亮点直击

  • 提出反演网络,通过预测噪声迭代校正重建图像。
  • 在少步扩散模型中,通过详细文本提示实现分解控制。
  • 编辑过程快速且效果好,单次编辑小于0.5秒。

方法

本文的方法依赖于正向扩散过程和单步/多步图像反演技术。使用生成器接受文本提示和噪声图像输出重构图像。本文还采用了对抗性损失来蒸馏多步扩散模型,并提出了一种多步迭代优化重建的方法。为解决预测噪声问题,采用重参数化技巧。

实验

实验使用了内部数据集,并对多种编辑方法进行了比较。结果显示,本文的方法在保留背景和遵循文本指导方面优于现有方法。

局部 Mask 和 基于指令的编辑

本文提出局部Mask来指示编辑区域,并利用大型语言模型简化文本编辑过程。

训练细节和消融实验

训练依赖于25万张图像和详细文本描述。消融实验验证了框架中各组件的重要性。

局限性和社会影响

本文讨论了方法依赖LLaVA生成详细描述的局限性,以及潜在的社会影响,包括图像操纵和误导信息的担忧。

结论

本文是首个在少步扩散模型背景下探索图像编辑的工作,通过详细文本提示实现解耦控制,实现快速逼真的文本引导图像编辑。

想要了解更多内容?