图像生成里程碑!VAR:自回归模型首超Diffusion Transformer!(北大&字节)
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章摘要
本文介绍了一种新的视觉自回归建模方法(VAR),它被视为一种重新定义图像自回归学习的范式,将自回归学习定义为粗到细的"下一尺度预测"。VAR使用类似GPT风格的自回归模型在图像生成方面超越了diffusion transformers,显示出在多个维度上优于Diffusion Transformer(DiT)的性能,包括图像质量、推理速度、数据效率和可扩展性。VAR模型还显示了在zero-shot泛化任务上的能力。
介绍
自回归(AR)大语言模型(LLMs)如GPT系列,因其泛化性和多功能性,被视为通用人工智能(AGI)迈进的坚实一步。本研究通过扩展AR模型的成功,将视觉模型带入了可扩展和泛化能力的探索中。VAR框架模仿了LLMs中的scaling laws和zero-shot泛化,能从大量未标注数据中学习。
相关工作
在探索扩展自回归语言模型的属性时,发现scaling laws和zero-shot泛化是关键因素。视觉生成方面的相关工作包括图像分词器和自回归模型,Masked-prediction模型以及扩散模型。
方法
VAR框架通过多尺度自回归范式和下一尺度预测创新了视觉生成框架。VAR tokenizer利用VQVAE架构进行tokenization,而VAR transformer采用类似GPT-2的transformer架构进行视觉自回归学习。
实验结果
VAR在ImageNet基准测试中取得显著成果,显着提升了自回归能力,超越了Diffusion Transformer。VAR模型展现了幂律scaling laws和zero-shot任务泛化的能力。
结论
VAR提出了一种新的视觉生成框架,理论上解决了标准图像自回归模型的问题,实现了在多个方面超越强大的扩散模型的性能。开放源代码可能会促进NLP领域的成功更无缝地整合到计算机视觉中,推动多模态智能的发展。
作者:Keyu Tian等
论文链接:https://arxiv.org/pdf/2404.02905.pdf
代码:https://github.com/FoundationVision/VAR
demo:https://var.vision/
想要了解更多内容?