扫码阅读
手机扫码阅读
ECCV`24 | 少步比多步好?TurboEdit:少步扩散和解耦控制的实时精确图像编辑(Adobe出品)
80 2024-10-25
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
摘要
本文介绍了一种基于编码器的迭代反演技术,用于精确图像反演和分解图像编辑。该方法需要的功能评估次数远少于传统多步扩散模型方法,大幅提升了速度和效率,并在保持背景以及文本图像对齐方面展现出较好的效果。
亮点直击
- 提出反演网络,通过预测噪声迭代校正重建图像。
- 在少步扩散模型中,通过详细文本提示实现分解控制。
- 编辑过程快速且效果好,单次编辑小于0.5秒。
方法
本文的方法依赖于正向扩散过程和单步/多步图像反演技术。使用生成器接受文本提示和噪声图像输出重构图像。本文还采用了对抗性损失来蒸馏多步扩散模型,并提出了一种多步迭代优化重建的方法。为解决预测噪声问题,采用重参数化技巧。
实验
实验使用了内部数据集,并对多种编辑方法进行了比较。结果显示,本文的方法在保留背景和遵循文本指导方面优于现有方法。
局部 Mask 和 基于指令的编辑
本文提出局部Mask来指示编辑区域,并利用大型语言模型简化文本编辑过程。
训练细节和消融实验
训练依赖于25万张图像和详细文本描述。消融实验验证了框架中各组件的重要性。
局限性和社会影响
本文讨论了方法依赖LLaVA生成详细描述的局限性,以及潜在的社会影响,包括图像操纵和误导信息的担忧。
结论
本文是首个在少步扩散模型背景下探索图像编辑的工作,通过详细文本提示实现解耦控制,实现快速逼真的文本引导图像编辑。
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
一文详解大语言模型的流行架构与训练技术
点击下方卡片,关注“AI生成未来”>>关注【AI生
虚拟试衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍档
点击下方卡片,关注“AI生成未来”>>后台回复“
系统回顾生成式AI的发展:GANs、GPT、自编码器、扩散模型和Transformer系列
点击下方卡片,关注“AI生成未来”
ChatGPT的推出引起
DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D
点击下方卡片,关注“AI生成未来”>>后台回复“
360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA!
点击下方卡片,关注“AI生成未来”>>后台回复“
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线