CVPR 2024 | 稳定提升!CAN和Diffusion Transformer才是最佳拍档(MIT&清华&英伟达)
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要 - 条件感知神经网络(CAN)
本文介绍了条件感知神经网络(CAN),这是一种新的图像生成模型控制机制,通过动态调整权重以引入控制。与传统方法不同,CAN通过条件感知权重生成模块来生成卷积/线性层的条件权重,从而控制图像生成过程。研究在ImageNet和COCO数据集上进行,结果表明CAN为扩散Transformer模型带来了显著改进,尤其是与EfficientViT结合时,能在降低计算成本的同时提升图像质量。
介绍
受控图像生成模型需添加控制机制以按指示生成图像。现有方法通过特征空间操作实现控制,但权重保持不变。CAN通过引入条件权重生成模块,根据条件动态调整神经网络权重,提供了一种新的条件控制方法。研究表明,选择部分模块具有条件感知能力更有效。
方法
CAN通过条件权重生成模块动态调整权重。选择特定模块成为条件感知的,以提高性能和效率。实验表明,深度卷积层和block embedding层成为条件感知的可以显著提升性能。CAN的高效实现方法通过分组卷积来处理不同样本的不同权重。
实验
使用ImageNet和COCO数据集进行了类别条件和文本到图像生成实验。CAN在提高图像质量和可控性方面超过了基线模型,且计算成本增加可忽略。CaT模型结合CAN和EfficientViT,显著降低了计算成本,提高了性能。
结论
CAN为图像生成模型提供了一种新的条件控制方法,并通过广泛的实验验证了其有效性。结合EfficientViT的CAN模型在提高图像质量和降低计算成本方面表现出色,为未来在更具挑战性的任务上应用CAN铺平了道路。
想要了解更多内容?