扫码阅读

手机扫码阅读

值得细读的8个视觉大模型生成式预训练方法

534 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：值得细读的8个视觉大模型生成式预训练方法

文章来源：

AI生成未来

扫码关注公众号

文章摘要

大语言模型（LLM）与视觉的结合推动了AI技术的发展，衍生出了多模态大模型。2023年，视觉基础模型的生成式预训练成为热门领域，推动了美股的繁荣。

LVM

UC Berkely和Johns Hopkins University提出了LVM，新模型通过将训练数据转换为visual sentences，进行自回归的生成式训练，增加了数据量和模型参数，验证了Scaling的有效性和In-context推理能力。

EMU

BAAI、THU和PKU提出的EMU模型通过image-text interleaved序列进行预训练，能够生成文本和桥接扩散模型Decoder生成图片。

4M

瑞士洛桑联邦理工和Apple的4M模型采用Masked Modeling方式进行预训练，实现多模态输入输出，其transformer encoder可作为视觉任务的backbone网络。

VL-GPT

西交、腾讯和港大提出的VL-GPT模型结合了image tokenizer-detokenizer框架和自回归预训练方式，用于理解和生成视觉和语言内容。

VILA

NVIDIA和MIT的VILA模型总结了视觉语言模型预训练的有效机制，并提出了视觉语言的大模型。

EMU2

EMU的团队提出的Emu2模型在结构和训练策略上进行了改进，提高了多模态大模型的In-Context学习能力。

DeLVM

华为诺亚实验室在LVM基础上提出了DeLVM，使用数据增强和蒸馏提升了模型的数据效率。

AIM

苹果公司提出的AIM模型也是通过自回归方式训练视觉基础模型，发现了与数据和模型参数量相关的Scaling效果。

整体来看，这些工作都是基于自回归、Masked Modeling或结合多模态数据的方式，对视觉基础模型进行预训练，推动了AI领域在视觉和语言模型方面的进展。

想要了解更多内容？

查看原文：值得细读的8个视觉大模型生成式预训练方法

文章来源：

AI生成未来

扫码关注公众号

相关推荐

AI黑云压城，程序员真的没有未来了吗？

365

AI 工作工具 ChatGPT

有人说 AI 将会造成大部分人的失业，对于这件事你有什么看法？

1分钟搭建自己的GPT网站

528

image.png 域名搭建 gpt

可能用不了1分钟

最近的AI视频，真成了CP党的“第一次工业革命”。

201

视频 AI CP 静帧

把过去的遗憾就交给AI吧。

让Dalle3完美保持角色一致性的终极指南 - 真就一模一样啊

452

一致性 Dalle3 GPT 图像

真傻瓜指南，有手就行，信我。

FDGaussian:又快又好的三维重建方案 | Gaussian Splatting和扩散模型超强联合

464

点击下方卡片，关注“AI生成未来”>>后台回复“

AI终于来冲击数据分析岗了？

474

10月17号可能有大事发生

AI生成未来

AIGC最新技术及资讯

159 篇文章

浏览 67.9K

AI生成未来的其他文章

全面提升！上海交大等联合发布MegaFusion：无须微调的高效高分辨率图像生成方法

点击下方卡片，关注“AI生成未来”>>后台回复“

精细化图像编辑！LocInv：优化交叉注意力泄漏问题（国科大&巴塞罗那自治大学）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

王者归来！Stability-AI又放大招 | Stable Cascade:更快更强的图像生成模型！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

如何拯救LoRA初始化？LoRA-GA：性能显著提升+收敛速度更快！

点击下方卡片，关注“AI生成未来”>>后台回复“

超燃！纯AI生成《泰坦尼克号》大片！浙大&阿里发布MovieDreamer:超长电影生成"梦工厂"

点击下方卡片，关注“AI生成未来”>>后台回复??

随机阅读

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

值得细读的8个视觉大模型生成式预训练方法

文章摘要

LVM

EMU

4M

VL-GPT

VILA

EMU2

DeLVM

AIM

联系我们

融实践库

微信公众号

微信视频号

社区微信群

值得细读的8个视觉大模型生成式预训练方法

文章摘要

LVM

EMU

4M

VL-GPT

VILA

EMU2

DeLVM

AIM

人工智能将如何改变敏捷项目管理？

联系我们

融实践库

微信公众号

微信视频号

社区微信群