CVPR 2024 | 稳定提升！CAN和Diffusion Transformer才是最佳拍档(MIT&清华&英伟达)

发布于 2024-10-22

311

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：CVPR 2024 | 稳定提升！CAN和Diffusion Transformer才是最佳拍档(MIT&清华&英伟达)

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

摘要 - 条件感知神经网络（CAN）

摘要 - 条件感知神经网络（CAN）

本文介绍了条件感知神经网络（CAN），这是一种新的图像生成模型控制机制，通过动态调整权重以引入控制。与传统方法不同，CAN通过条件感知权重生成模块来生成卷积/线性层的条件权重，从而控制图像生成过程。研究在ImageNet和COCO数据集上进行，结果表明CAN为扩散Transformer模型带来了显著改进，尤其是与EfficientViT结合时，能在降低计算成本的同时提升图像质量。

介绍

受控图像生成模型需添加控制机制以按指示生成图像。现有方法通过特征空间操作实现控制，但权重保持不变。CAN通过引入条件权重生成模块，根据条件动态调整神经网络权重，提供了一种新的条件控制方法。研究表明，选择部分模块具有条件感知能力更有效。

方法

CAN通过条件权重生成模块动态调整权重。选择特定模块成为条件感知的，以提高性能和效率。实验表明，深度卷积层和block embedding层成为条件感知的可以显著提升性能。CAN的高效实现方法通过分组卷积来处理不同样本的不同权重。

实验

使用ImageNet和COCO数据集进行了类别条件和文本到图像生成实验。CAN在提高图像质量和可控性方面超过了基线模型，且计算成本增加可忽略。CaT模型结合CAN和EfficientViT，显著降低了计算成本，提高了性能。

结论

CAN为图像生成模型提供了一种新的条件控制方法，并通过广泛的实验验证了其有效性。结合EfficientViT的CAN模型在提高图像质量和降低计算成本方面表现出色，为未来在更具挑战性的任务上应用CAN铺平了道路。

AI生成未来

查看原文：CVPR 2024 | 稳定提升！CAN和Diffusion Transformer才是最佳拍档(MIT&清华&英伟达)

文章来源：

AI生成未来

扫码关注公众号

相关推荐

图解如何做好售前业务和技术交流

939

交流项目管理文末附可

有效的交流就是要让对方认可你，让你的技术、产品、方案能和他们的需求和痛点完美契合。

像母语一样看外语网站，用这一个翻译插件就够了。

299

翻译插件 AI 英文

这个翻译插件，我愿称之为最强。

Google发布Gemma 2 2B和Gemini 1.5 Pro，FLUX开源图像的新标杆，这就是这周的AI大新闻。

404

模型 https 视频 AI

7.30~8.04，又是刺激的一周。这周的AI大事件，就都在这里啦。

最强中文语音克隆BertVits2 - 有一点点麻烦，但是效果真的无敌

697

运行代码效果音频

曾经我写过一篇做语音克隆的AI音频工具：11Labs 效果?

英特尔全新AI芯片来了！

389

AI 模型 https Meta

最近AI又发生了啥？一起看看吧

我的年终总结报告有救了！7款好用的AI创作平台分享

2675

年底将至，迎来了一年一度的年终总结大会，为了让?

AIGC最新技术及资讯

207 篇文章

浏览 87.7K

AI生成未来的其他文章

五大在线AI扩图平台，畅玩图片扩展神奇功能

你是否在网上见过许多有趣的图片扩图恶搞？例如AIGC

视觉效果超赞！随意画个草图就能生成3D交互游戏场景！腾讯XR出品

点击下方卡片，关注“AI生成未来”>>后台回复“

重大突破！IDAdapter：首个无需微调，单张图像生成多样和个性化头像方案(北大&格灵深瞳）

点击下方卡片，关注“AI生成未来”>>后台回复“

ECCV`24 | 艺术文本和场景文本分割任务新SOTA 方法！华科&Adobe提出WAS！

点击下方卡片，关注“AI生成未来”>>后台回复“

生成一个好故事！StoryDiffusion:一致自注意力和语义运动预测器必不可少（南开&字节）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

随机阅读

GOV与II两个PA的案例

敏捷团队章程的实践精要

例解：目标、性能基线与性能模型的关系

CMMI 2.0维持性评估13问

项目资源调配要打歼灭战

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线