扫码阅读
手机扫码阅读
ECCV`24 | 少步比多步好?TurboEdit:少步扩散和解耦控制的实时精确图像编辑(Adobe出品)
167 2024-10-25
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
摘要
本文介绍了一种基于编码器的迭代反演技术,用于精确图像反演和分解图像编辑。该方法需要的功能评估次数远少于传统多步扩散模型方法,大幅提升了速度和效率,并在保持背景以及文本图像对齐方面展现出较好的效果。
亮点直击
- 提出反演网络,通过预测噪声迭代校正重建图像。
- 在少步扩散模型中,通过详细文本提示实现分解控制。
- 编辑过程快速且效果好,单次编辑小于0.5秒。
方法
本文的方法依赖于正向扩散过程和单步/多步图像反演技术。使用生成器接受文本提示和噪声图像输出重构图像。本文还采用了对抗性损失来蒸馏多步扩散模型,并提出了一种多步迭代优化重建的方法。为解决预测噪声问题,采用重参数化技巧。
实验
实验使用了内部数据集,并对多种编辑方法进行了比较。结果显示,本文的方法在保留背景和遵循文本指导方面优于现有方法。
局部 Mask 和 基于指令的编辑
本文提出局部Mask来指示编辑区域,并利用大型语言模型简化文本编辑过程。
训练细节和消融实验
训练依赖于25万张图像和详细文本描述。消融实验验证了框架中各组件的重要性。
局限性和社会影响
本文讨论了方法依赖LLaVA生成详细描述的局限性,以及潜在的社会影响,包括图像操纵和误导信息的担忧。
结论
本文是首个在少步扩散模型背景下探索图像编辑的工作,通过详细文本提示实现解耦控制,实现快速逼真的文本引导图像编辑。
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
深入探讨基于大语言模型的数据标注
点击上方 蓝字,关注 AI 生成未来,干货不停后台??
大语言模型的前世今生:万字长文完整梳理所有里程碑式大语言模型(LLMs)
点击下方卡片,关注“AI生成未来”>>后台回复“
文本生视频最强SOTA! Lumiere:一种逼真视频生成时空扩散模型
关注【AI生成未来】公众号,回复“GAI”,免费获取??
ECCV`24 | 编辑能力无上限!北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式!
点击下方卡片,关注“AI生成未来”>>后台回复“
迈向统一扩散框架!Adobe提出RGB↔X:双重利好下游编辑任务 | SIGGRAPH'24
击下方卡片,关注“AI生成未来”>>后台回复“GAI
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线