扫码阅读
手机扫码阅读
ECCV`24 | 少步比多步好?TurboEdit:少步扩散和解耦控制的实时精确图像编辑(Adobe出品)

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

AI生成未来
扫码关注公众号
摘要
本文介绍了一种基于编码器的迭代反演技术,用于精确图像反演和分解图像编辑。该方法需要的功能评估次数远少于传统多步扩散模型方法,大幅提升了速度和效率,并在保持背景以及文本图像对齐方面展现出较好的效果。
亮点直击
- 提出反演网络,通过预测噪声迭代校正重建图像。
- 在少步扩散模型中,通过详细文本提示实现分解控制。
- 编辑过程快速且效果好,单次编辑小于0.5秒。
方法
本文的方法依赖于正向扩散过程和单步/多步图像反演技术。使用生成器接受文本提示和噪声图像输出重构图像。本文还采用了对抗性损失来蒸馏多步扩散模型,并提出了一种多步迭代优化重建的方法。为解决预测噪声问题,采用重参数化技巧。
实验
实验使用了内部数据集,并对多种编辑方法进行了比较。结果显示,本文的方法在保留背景和遵循文本指导方面优于现有方法。
局部 Mask 和 基于指令的编辑
本文提出局部Mask来指示编辑区域,并利用大型语言模型简化文本编辑过程。
训练细节和消融实验
训练依赖于25万张图像和详细文本描述。消融实验验证了框架中各组件的重要性。
局限性和社会影响
本文讨论了方法依赖LLaVA生成详细描述的局限性,以及潜在的社会影响,包括图像操纵和误导信息的担忧。
结论
本文是首个在少步扩散模型背景下探索图像编辑的工作,通过详细文本提示实现解耦控制,实现快速逼真的文本引导图像编辑。
想要了解更多内容?

AI生成未来
扫码关注公众号
AI生成未来的其他文章
勇夺三项SOTA!北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo!
点击下方卡片,关注“AI生成未来”>>后台回复“
9款AI营销创作平台,营销人的开挂利器!
在社交媒体成为日常生活不可或缺的一部分的今天,?
一文详解视觉Transformer模型压缩和加速策略(量化/低秩近似/蒸馏/剪枝)
点击下方卡片,关注“AI生成未来”>>后台回复“
又见神仙打架,全面超越快手可灵?智谱AI联合清华发布CogVideoX | 技术报告解析
点击下方卡片,关注“AI生成未来”>>后台回复“
无性能损失!让SAM加速近50倍!EfficientViT-SAM来了!
关注【AI生成未来】公众号,回复“GAI”,免费获取??
加入社区微信群
与行业大咖零距离交流学习


PMO实践白皮书
白皮书上线
白皮书上线