扫码阅读

手机扫码阅读

图像生成里程碑！VAR:自回归模型首超Diffusion Transformer！（北大&字节）

624 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：图像生成里程碑！VAR:自回归模型首超Diffusion Transformer！（北大&字节）

文章来源：

AI生成未来

扫码关注公众号

文章摘要

本文介绍了一种新的视觉自回归建模方法（VAR），它被视为一种重新定义图像自回归学习的范式，将自回归学习定义为粗到细的"下一尺度预测"。VAR使用类似GPT风格的自回归模型在图像生成方面超越了diffusion transformers，显示出在多个维度上优于Diffusion Transformer（DiT）的性能，包括图像质量、推理速度、数据效率和可扩展性。VAR模型还显示了在zero-shot泛化任务上的能力。

介绍

自回归（AR）大语言模型（LLMs）如GPT系列，因其泛化性和多功能性，被视为通用人工智能（AGI）迈进的坚实一步。本研究通过扩展AR模型的成功，将视觉模型带入了可扩展和泛化能力的探索中。VAR框架模仿了LLMs中的scaling laws和zero-shot泛化，能从大量未标注数据中学习。

相关工作

在探索扩展自回归语言模型的属性时，发现scaling laws和zero-shot泛化是关键因素。视觉生成方面的相关工作包括图像分词器和自回归模型，Masked-prediction模型以及扩散模型。

方法

VAR框架通过多尺度自回归范式和下一尺度预测创新了视觉生成框架。VAR tokenizer利用VQVAE架构进行tokenization，而VAR transformer采用类似GPT-2的transformer架构进行视觉自回归学习。

实验结果

VAR在ImageNet基准测试中取得显著成果，显着提升了自回归能力，超越了Diffusion Transformer。VAR模型展现了幂律scaling laws和zero-shot任务泛化的能力。

结论

VAR提出了一种新的视觉生成框架，理论上解决了标准图像自回归模型的问题，实现了在多个方面超越强大的扩散模型的性能。开放源代码可能会促进NLP领域的成功更无缝地整合到计算机视觉中，推动多模态智能的发展。

作者：Keyu Tian等
论文链接：https://arxiv.org/pdf/2404.02905.pdf
代码：https://github.com/FoundationVision/VAR
demo：https://var.vision/

想要了解更多内容？

查看原文：图像生成里程碑！VAR:自回归模型首超Diffusion Transformer！（北大&字节）

文章来源：

AI生成未来

扫码关注公众号

相关推荐

我用了2周PIKA1.0后，总结了10个宝藏使用技巧 - 建议收藏公测后用

461

PIKA 视频 PIKA1.0 延长

有一群志同道合一起玩AI的朋友，真好啊

当我把我的100篇文章喂给AI - 坏了，我成数字生命了？

397

。。。文章 AI 卡兹

啊？

腾讯浑沌大规模模型技术驱动的智能工作平台ima.copilot今日正式启动

499

ima 写作获取腾讯

腾讯AI力作ima.copilot

100个常用的deepseek提示词（建议收藏）

45

设计方案数据优化

赶紧码好！！！

ACM MM24 | Hi3D: 3D生成领域再突破！新视角生成和高分辨率生成双SOTA(复旦&智象等)

39

3D 图像视图生成

点击下方卡片，关注“AI生成未来” 作者：Haibo Yang ??

YYDS！数字人终于实现穿、脱衣自由!上大、腾讯等提出3D服装合成新方法：ClotheDreamer

35

服装本文生成高斯

.点击下方卡片，关注“AI生成未来”>>后台回复??

AIGC最新技术及资讯

207 篇文章

浏览 85.2K

AI生成未来的其他文章

Transformer和Mamba优势结合！Dimba：兼顾内存和效果的生图新框架

点击下方卡片，关注“AI生成未来”>>后台回复“

兼顾身份保护和文本对齐！中山大学等提出CoRe：任意提示的文本到图像个性化生成！

点击下方卡片，关注“AI生成未来”作者：Feize Wu、Xud

深入探讨基于大语言模型的数据标注

点击上方蓝字，关注 AI 生成未来，干货不停后台??

单GPU一分钟生成16K高清图像！新加坡国立发布LinFusion:无缝兼容Stable Diffusion插件

点击下方卡片，关注“AI生成未来”作者：Songhua Liu等

风格控制水平创新高！南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架

点击下方卡片，关注“AI生成未来”作者：Peng Xing等

随机阅读

和任老师聊聊质量工作

公司级项目管理例会的汇报内容

你是否真的读懂了回归方程y=ax+b?

回归方程有效性的检查

对需求签字画押，有用吗？

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线