扫码阅读

手机扫码阅读

值得细读的8个视觉大模型生成式预训练方法

292 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：值得细读的8个视觉大模型生成式预训练方法

文章来源：

AI生成未来

扫码关注公众号

文章摘要

大语言模型（LLM）与视觉的结合推动了AI技术的发展，衍生出了多模态大模型。2023年，视觉基础模型的生成式预训练成为热门领域，推动了美股的繁荣。

LVM

UC Berkely和Johns Hopkins University提出了LVM，新模型通过将训练数据转换为visual sentences，进行自回归的生成式训练，增加了数据量和模型参数，验证了Scaling的有效性和In-context推理能力。

EMU

BAAI、THU和PKU提出的EMU模型通过image-text interleaved序列进行预训练，能够生成文本和桥接扩散模型Decoder生成图片。

4M

瑞士洛桑联邦理工和Apple的4M模型采用Masked Modeling方式进行预训练，实现多模态输入输出，其transformer encoder可作为视觉任务的backbone网络。

VL-GPT

西交、腾讯和港大提出的VL-GPT模型结合了image tokenizer-detokenizer框架和自回归预训练方式，用于理解和生成视觉和语言内容。

VILA

NVIDIA和MIT的VILA模型总结了视觉语言模型预训练的有效机制，并提出了视觉语言的大模型。

EMU2

EMU的团队提出的Emu2模型在结构和训练策略上进行了改进，提高了多模态大模型的In-Context学习能力。

DeLVM

华为诺亚实验室在LVM基础上提出了DeLVM，使用数据增强和蒸馏提升了模型的数据效率。

AIM

苹果公司提出的AIM模型也是通过自回归方式训练视觉基础模型，发现了与数据和模型参数量相关的Scaling效果。

整体来看，这些工作都是基于自回归、Masked Modeling或结合多模态数据的方式，对视觉基础模型进行预训练，推动了AI领域在视觉和语言模型方面的进展。

想要了解更多内容？

查看原文：值得细读的8个视觉大模型生成式预训练方法

文章来源：

AI生成未来

扫码关注公众号

相关推荐

ChatGPT无法访问？来，免费试试它的竞争对手Claude

342

Claude AI Slack ChatGPT

ChatGPT无法访问？来，免费试试它的竞争对手Claude

一款国产免费AI绘画软件

283

福利快来

突发：OpenAI高层大地震，大模型未来的在何方

159

OpenAI高层“巨震”：CEO奥特曼被赶出公司，总裁辞职

这么多AI大模型，就没一个能算清今年这破调休的？

156

调休 AI 放假数学题

今年中秋国庆的调休假期，连AI都算懵逼了。

当我用AI去复活文物 - 只想再看一眼千年前的它们

197

文物羽人海辛凤鸟

我爱它们

AI终于来冲击数据分析岗了？

242

10月17号可能有大事发生

AI生成未来

AIGC最新技术及资讯

159 篇文章

浏览 31K

AI生成未来的其他文章

FDGaussian:又快又好的三维重建方案 | Gaussian Splatting和扩散模型超强联合

点击下方卡片，关注“AI生成未来”>>后台回复“

模糊文字如何恢复高清？效果惊艳的基于扩散模型的文本图像超分辨率技术

作者：Yuzhe Zhang等解读：AIGCer 恢复低分辨率文本图像

视频生成领域第一个World Model来了！WorldDreamer：视频生成任务的通用模型

关注【AI生成未来】公众号，回复“GAI”，免费获取??

超越α！PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT（华为诺亚）

点击下方卡片，关注“AI生成未来”>>后台回复“

揭秘神秘的种子：Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

加入社区微信群

与行业大咖零距离交流学习

SAFe6.0与CMMI3.0映射
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：xdwjack
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

值得细读的8个视觉大模型生成式预训练方法

文章摘要

LVM

EMU

4M

VL-GPT

VILA

EMU2

DeLVM

AIM

IPD（集成产品开发）常见术语大全~看这一篇就懂了！

联系我们

融实践库

微信公众号

微信视频号

社区微信群