扫码阅读
手机扫码阅读

图像生成里程碑!VAR:自回归模型首超Diffusion Transformer!(北大&字节)

205 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:图像生成里程碑!VAR:自回归模型首超Diffusion Transformer!(北大&字节)
文章来源:
AI生成未来
扫码关注公众号

文章摘要

本文介绍了一种新的视觉自回归建模方法(VAR),它被视为一种重新定义图像自回归学习的范式,将自回归学习定义为粗到细的"下一尺度预测"。VAR使用类似GPT风格的自回归模型在图像生成方面超越了diffusion transformers,显示出在多个维度上优于Diffusion Transformer(DiT)的性能,包括图像质量、推理速度、数据效率和可扩展性。VAR模型还显示了在zero-shot泛化任务上的能力。

介绍

自回归(AR)大语言模型(LLMs)如GPT系列,因其泛化性和多功能性,被视为通用人工智能(AGI)迈进的坚实一步。本研究通过扩展AR模型的成功,将视觉模型带入了可扩展和泛化能力的探索中。VAR框架模仿了LLMs中的scaling laws和zero-shot泛化,能从大量未标注数据中学习。

相关工作

在探索扩展自回归语言模型的属性时,发现scaling laws和zero-shot泛化是关键因素。视觉生成方面的相关工作包括图像分词器和自回归模型,Masked-prediction模型以及扩散模型。

方法

VAR框架通过多尺度自回归范式和下一尺度预测创新了视觉生成框架。VAR tokenizer利用VQVAE架构进行tokenization,而VAR transformer采用类似GPT-2的transformer架构进行视觉自回归学习。

实验结果

VAR在ImageNet基准测试中取得显著成果,显着提升了自回归能力,超越了Diffusion Transformer。VAR模型展现了幂律scaling laws和zero-shot任务泛化的能力。

结论

VAR提出了一种新的视觉生成框架,理论上解决了标准图像自回归模型的问题,实现了在多个方面超越强大的扩散模型的性能。开放源代码可能会促进NLP领域的成功更无缝地整合到计算机视觉中,推动多模态智能的发展。

作者:Keyu Tian等
论文链接:https://arxiv.org/pdf/2404.02905.pdf
代码:https://github.com/FoundationVision/VAR
demo:https://var.vision/

想要了解更多内容?

查看原文:图像生成里程碑!VAR:自回归模型首超Diffusion Transformer!(北大&字节)
文章来源:
AI生成未来
扫码关注公众号