扫码阅读
手机扫码阅读

值得细读的8个视觉大模型生成式预训练方法

156 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:值得细读的8个视觉大模型生成式预训练方法
文章来源:
AI生成未来
扫码关注公众号
文章摘要

文章摘要

大语言模型(LLM)与视觉的结合推动了AI技术的发展,衍生出了多模态大模型。2023年,视觉基础模型的生成式预训练成为热门领域,推动了美股的繁荣。

LVM

UC Berkely和Johns Hopkins University提出了LVM,新模型通过将训练数据转换为visual sentences,进行自回归的生成式训练,增加了数据量和模型参数,验证了Scaling的有效性和In-context推理能力。

EMU

BAAI、THU和PKU提出的EMU模型通过image-text interleaved序列进行预训练,能够生成文本和桥接扩散模型Decoder生成图片。

4M

瑞士洛桑联邦理工和Apple的4M模型采用Masked Modeling方式进行预训练,实现多模态输入输出,其transformer encoder可作为视觉任务的backbone网络。

VL-GPT

西交、腾讯和港大提出的VL-GPT模型结合了image tokenizer-detokenizer框架和自回归预训练方式,用于理解和生成视觉和语言内容。

VILA

NVIDIA和MIT的VILA模型总结了视觉语言模型预训练的有效机制,并提出了视觉语言的大模型。

EMU2

EMU的团队提出的Emu2模型在结构和训练策略上进行了改进,提高了多模态大模型的In-Context学习能力。

DeLVM

华为诺亚实验室在LVM基础上提出了DeLVM,使用数据增强和蒸馏提升了模型的数据效率。

AIM

苹果公司提出的AIM模型也是通过自回归方式训练视觉基础模型,发现了与数据和模型参数量相关的Scaling效果。

整体来看,这些工作都是基于自回归、Masked Modeling或结合多模态数据的方式,对视觉基础模型进行预训练,推动了AI领域在视觉和语言模型方面的进展。

想要了解更多内容?

查看原文:值得细读的8个视觉大模型生成式预训练方法
文章来源:
AI生成未来
扫码关注公众号