效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生图新框架(加州大学&英伟达)
发布于 2024-10-26


版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章摘要
本文介绍了Ctrl-X,这是一个新的无需训练或引导的文本到图像(T2I)扩散模型控制框架。该框架允许通过前馈结构控制和语义外观迁移对结构和外观进行解耦和零次控制,从而实现高质量的图像生成。
主要贡献
- 提出了Ctrl-X,一个简单的即插即用方法,允许基于预训练的T2I扩散模型进行结构和外观控制,无需额外训练或指导。
- Ctrl-X是第一个支持多条件信号和多模型架构的通用无需引导解决方案。
- 在结构对齐、文本图像对齐和图像质量方面,与现有方法相比,Ctrl-X展现出更好的性能。
方法概述
Ctrl-X操作预训练的T2I扩散模型,通过前馈结构控制和空间外观迁移,实现结构与外观的控制。方法包括直接从扩散模型提取特征,执行特征和自注意力注入,以及利用自注意力对应关系进行外观迁移。
实验结果
定量和定性实验表明,Ctrl-X在保留结构和对齐外观方面表现优异,且推理效率高于多个现有方法。此外,Ctrl-X也适用于文本到视频(T2V)模型,能够实现结构紧密对齐和时间一致的外观传递。
局限性和影响
Ctrl-X的主要局限性在于可能无法捕捉目标外观,尤其是在实例很小时。它易于使用的特性,也可能导致预训练模型被用于恶意目的,如深度伪造,引发伦理关切。
结论
Ctrl-X是一个灵活的无需训练和无需引导的结构和外观控制框架,适用于任何T2I和T2V扩散模型,具有竞争性的结构保留和外观迁移性能。
AI生成未来

AI生成未来
扫码关注公众号
AI生成未来的其他文章
CVPR`24 | 真假难辨!CosmicMan:超实用的人物生成基础模型来了!(上海AI Lab)
点击下方卡片,关注“AI生成未来”>>后台回复“
即插即用!CVD:第一个生成具有相机控制的多视图一致视频方案!(斯坦福&港中文)
点击下方卡片,关注“AI生成未来”>>后台回复“
3D分割新范式!浙大开源Reasoning3D:通过大视觉语言模型搞定3D部件分割
点击下方卡片,关注“AI生成未来”>>后台回复“
ECCV`24 | 比DragDiffusion快100倍!RegionDrag:快·准·好的图像编辑方法!港大&牛津
点击下方卡片,关注“AI生成未来”>>后台回复“
单GPU一分钟生成16K高清图像!新加坡国立发布LinFusion:无缝兼容Stable Diffusion插件
点击下方卡片,关注“AI生成未来”作者:Songhua Liu等
加入社区微信群
与行业大咖零距离交流学习


PMO实践白皮书
白皮书上线
白皮书上线