只需一步!One-Step图像转换来了!亲测效果惊艳!(卡内基梅隆&Adobe)
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
主要内容
本文提出了一种基于对抗性学习目标的通用方法,以克服现有条件扩散模型在推理速度和成对数据依赖性上的局限性。新方法通过整合单步扩散模型的模块到一个端到端的生成器网络,减少了推理步骤并增强了对输入图像结构的保持。该方法被应用于各种场景转换任务,并证明了其在无配对和配对设置下的有效性。
介绍
条件扩散模型虽成功,但推理速度慢且训练需要大量配对数据。本项工作通过对抗性学习目标调整预训练的文本条件one-step扩散模型,以实现快速的、无需图像对的训练。
方法
本文介绍了一种新的生成器架构,通过直接将条件信息馈送到UNet中并整合独立模块,同时使用LoRA技术调整网络权重,减少过拟合。此外,还引入了跳跃连接以保留输入的高频细节。
实验
通过广泛实验,本文展示了CycleGAN-Turbo在无配对转换任务上超越现有方法,并保持了输入结构。同时,模型pix2pix-Turbo在配对设置下生成了与现有条件扩散模型相媲美的结果。
相关工作
本文对现有的图像到图像转换模型、无配对转换技术和文本到图像模型进行了回顾,强调了其局限性并提出了改进的方法。
扩展
本文还展示了将其方法扩展到学习其他类型的GAN目标和生成多样化输出的能力。
结论
本文证明了one-step预训练模型可以作为多种图像合成任务的骨干,并通过多种GAN目标适应新任务和领域,而无需多步扩散训练。
局限性与未来工作
虽然模型能够一步生成令人满意的结果,但存在一些局限性,如无法指定指导强度和训练内存消耗大,未来可能探索用于更高分辨率图像合成的方法。
想要了解更多内容?