扫码阅读
手机扫码阅读

只需一步!One-Step图像转换来了!亲测效果惊艳!(卡内基梅隆&Adobe)

153 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:只需一步!One-Step图像转换来了!亲测效果惊艳!(卡内基梅隆&Adobe)
文章来源:
AI生成未来
扫码关注公众号
摘要:One-Step Image Translation with Text-to-Image Models

主要内容

本文提出了一种基于对抗性学习目标的通用方法,以克服现有条件扩散模型在推理速度和成对数据依赖性上的局限性。新方法通过整合单步扩散模型的模块到一个端到端的生成器网络,减少了推理步骤并增强了对输入图像结构的保持。该方法被应用于各种场景转换任务,并证明了其在无配对和配对设置下的有效性。

介绍

条件扩散模型虽成功,但推理速度慢且训练需要大量配对数据。本项工作通过对抗性学习目标调整预训练的文本条件one-step扩散模型,以实现快速的、无需图像对的训练。

方法

本文介绍了一种新的生成器架构,通过直接将条件信息馈送到UNet中并整合独立模块,同时使用LoRA技术调整网络权重,减少过拟合。此外,还引入了跳跃连接以保留输入的高频细节。

实验

通过广泛实验,本文展示了CycleGAN-Turbo在无配对转换任务上超越现有方法,并保持了输入结构。同时,模型pix2pix-Turbo在配对设置下生成了与现有条件扩散模型相媲美的结果。

相关工作

本文对现有的图像到图像转换模型、无配对转换技术和文本到图像模型进行了回顾,强调了其局限性并提出了改进的方法。

扩展

本文还展示了将其方法扩展到学习其他类型的GAN目标和生成多样化输出的能力。

结论

本文证明了one-step预训练模型可以作为多种图像合成任务的骨干,并通过多种GAN目标适应新任务和领域,而无需多步扩散训练。

局限性与未来工作

虽然模型能够一步生成令人满意的结果,但存在一些局限性,如无法指定指导强度和训练内存消耗大,未来可能探索用于更高分辨率图像合成的方法。

想要了解更多内容?

查看原文:只需一步!One-Step图像转换来了!亲测效果惊艳!(卡内基梅隆&Adobe)
文章来源:
AI生成未来
扫码关注公众号