扫码阅读
手机扫码阅读

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生图新框架(加州大学&英伟达)

25 2024-10-26

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

摘要

本文介绍了Ctrl-X,这是一种简单的、无需额外训练的方法,能够在文本到图像(T2I)和文本到视频(T2V)扩散模型中实现结构和外观的解耦和控制。Ctrl-X通过前馈结构控制和语义外观迁移,实现了从用户输入图像到生成图像的高质量结构和外观迁移。该方法在各种条件输入和模型上展现出优异的性能,并且与现有方法相比,生成的图像具有更高的质量和外观迁移精度。

无导向结构和外观控制

Ctrl-X作为一个通用框架,可以直接操作一个预训练的T2I扩散模型,生成继承了指定结构和外观的输出图像。该框架通过前馈结构控制和自注意力注入技术,有效地将结构信息从结构图像传递到输出图像,同时保证了输出图像的外观与用户输入的外观图像保持一致。

实验

通过定性和定量实验验证了Ctrl-X的性能。实验结果显示,Ctrl-X在保持结构和实现外观迁移方面表现出色,并且与多种基线方法相比具有更好的结构对齐和外观对齐效果。推理效率方面,Ctrl-X相比于其他基于训练或引导的方法具有更快的速度,表现出较高的灵活性。

扩展到视频扩散模型

Ctrl-X的无需训练和无需引导的特性,以及它在推理时的竞争性表现,使其可以直接应用于T2V模型。在视频扩散方面,Ctrl-X可以实现结构图像和输出视频之间的紧密对齐,同时从外观图像中传递时间一致的外观。

结论

Ctrl-X是一个针对任何T2I和T2V扩散模型的结构和外观控制框架,它无需训练和引导,能够利用预训练模型的特征对应关系实现高质量的结构和外观迁移。不过,Ctrl-X在实现语义外观迁移时可能存在一定的局限性,尤其是当目标外观的实例很小时。尽管如此,Ctrl-X的灵活性和易用性可能会带来深度伪造等安全问题,因此需要社区审查和改进其安全性。

想要了解更多内容?