值得细读的8个视觉大模型生成式预训练方法
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章摘要
大语言模型(LLM)与视觉的结合推动了AI技术的发展,衍生出了多模态大模型。2023年,视觉基础模型的生成式预训练成为热门领域,推动了美股的繁荣。
LVM
UC Berkely和Johns Hopkins University提出了LVM,新模型通过将训练数据转换为visual sentences,进行自回归的生成式训练,增加了数据量和模型参数,验证了Scaling的有效性和In-context推理能力。
EMU
BAAI、THU和PKU提出的EMU模型通过image-text interleaved序列进行预训练,能够生成文本和桥接扩散模型Decoder生成图片。
4M
瑞士洛桑联邦理工和Apple的4M模型采用Masked Modeling方式进行预训练,实现多模态输入输出,其transformer encoder可作为视觉任务的backbone网络。
VL-GPT
西交、腾讯和港大提出的VL-GPT模型结合了image tokenizer-detokenizer框架和自回归预训练方式,用于理解和生成视觉和语言内容。
VILA
NVIDIA和MIT的VILA模型总结了视觉语言模型预训练的有效机制,并提出了视觉语言的大模型。
EMU2
EMU的团队提出的Emu2模型在结构和训练策略上进行了改进,提高了多模态大模型的In-Context学习能力。
DeLVM
华为诺亚实验室在LVM基础上提出了DeLVM,使用数据增强和蒸馏提升了模型的数据效率。
AIM
苹果公司提出的AIM模型也是通过自回归方式训练视觉基础模型,发现了与数据和模型参数量相关的Scaling效果。
整体来看,这些工作都是基于自回归、Masked Modeling或结合多模态数据的方式,对视觉基础模型进行预训练,推动了AI领域在视觉和语言模型方面的进展。
想要了解更多内容?
白皮书上线