扫码阅读
手机扫码阅读

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生图新框架(加州大学&英伟达)

386 2024-10-26

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

文章摘要

本文介绍了Ctrl-X,这是一个新的无需训练或引导的文本到图像(T2I)扩散模型控制框架。该框架允许通过前馈结构控制和语义外观迁移对结构和外观进行解耦和零次控制,从而实现高质量的图像生成。

主要贡献

  • 提出了Ctrl-X,一个简单的即插即用方法,允许基于预训练的T2I扩散模型进行结构和外观控制,无需额外训练或指导。
  • Ctrl-X是第一个支持多条件信号和多模型架构的通用无需引导解决方案。
  • 在结构对齐、文本图像对齐和图像质量方面,与现有方法相比,Ctrl-X展现出更好的性能。

方法概述

Ctrl-X操作预训练的T2I扩散模型,通过前馈结构控制和空间外观迁移,实现结构与外观的控制。方法包括直接从扩散模型提取特征,执行特征和自注意力注入,以及利用自注意力对应关系进行外观迁移。

实验结果

定量和定性实验表明,Ctrl-X在保留结构和对齐外观方面表现优异,且推理效率高于多个现有方法。此外,Ctrl-X也适用于文本到视频(T2V)模型,能够实现结构紧密对齐和时间一致的外观传递。

局限性和影响

Ctrl-X的主要局限性在于可能无法捕捉目标外观,尤其是在实例很小时。它易于使用的特性,也可能导致预训练模型被用于恶意目的,如深度伪造,引发伦理关切。

结论

Ctrl-X是一个灵活的无需训练和无需引导的结构和外观控制框架,适用于任何T2I和T2V扩散模型,具有竞争性的结构保留和外观迁移性能。

想要了解更多内容?