扫码阅读

手机扫码阅读

一文详解AutoEncoder在图像生成和多模态大模型中的应用

317 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：一文详解AutoEncoder在图像生成和多模态大模型中的应用

文章来源：

AI生成未来

扫码关注公众号

AutoEncoder应用于图像生成与多模态大模型摘要

本文由作者vasgaowei原创，编辑由“AI生成未来”团队提供，主要探讨了AutoEncoder在自回归图像生成和多模态大模型中的应用。

VAE

变分自编码器（VAE）是一种通过概率图模型进行图像生成的方法。原文提供了多个资源链接，供读者深入学习VAE的数学推导和理解。

VQ-VAE

VQ-VAE通过隐特征空间和量化技术优化编码器和解码器，使用向量量化（VQ）学习嵌入空间，以及采用移动平均函数更新字典项。文章解释了VQ-VAE的结构和目标函数。

VQ-VAE-2

Google Deepmind的VQ-VAE-2在VQ-VAE的基础上进行改进，引入层次化的向量量化和自回归先验模型PixelCNN的训练。

VQ-GAN

VQ-GAN结合了VQ-VAE和GAN的训练方法，使用Transformer生成特征向量ID，并通过Decoder生成图片，同时采用感知损失和基于patch的判别器。

ViT-VQ-GAN

ViT-VQ-GAN使用ViT提取图像特征，并通过降维和量化技术改进VQ-GAN，以解决学习不充分的问题。

DALL-E

DALL-E采用自回归方式生成图片，通过Transformer模型对图片和文本caption的联合分布概率进行建模。

SPAE

SPAE扩展了VQ-GAN，使用预训练的LLM的codebook进行图像特征量化，并采用FPN的思想进行多尺度量化。

HQ-VAE

HQ-VAE通过层次化量化捕捉不同层级的结构化信息，并使用层次化量化的Transformer进行自回归建模。

UniCode

UniCode针对多模态大语言模型学习了一个文本-图像统一的Codebook，对图像和文本进行编码量化。

Language-Quantized AutoEncoder LQAE

LQAE使用预训练的LLM的codebook进行图像特征的量化，并采用masked image modeling的方式进行训练。

RQ-VAE

RQ-VAE通过残差量化和自回归Transformer对图片特征进行多尺度量化。

Make-A-Scene

Make-A-Scene采用自回归Transformer进行图像生成，并控制图像生成条件。

MaskGIT

MaskGIT使用masked modeling方式生成图片，提高了图片生成的速度。

Muse

Muse预测token，采用不同分辨率的VQ Tokenizer和Transformer以及微调的Decoder生成图片。

Parti

Parti通过自回归Transformer生成图片的token，并通过VQ-GAN的Decoder得到生成图片。

VAR

VAR通过自回归方式生成高分辨率图片，并对图片特征进行多尺度离散量化。

文章还提供了加入AIGC技术交流群的方法，并推荐了相关的技术文章。

想要了解更多内容？

查看原文：一文详解AutoEncoder在图像生成和多模态大模型中的应用

文章来源：

AI生成未来

扫码关注公众号

相关推荐

不止ChatGPT，这些GPT 官方助力的潜力股同样值得拥有

547

AI 工具 GPT OpenAI

OpenAI的创投基金主页简陋到连投资信息都不全面的地步.

借助这款AI工具，立马让你成为大师级绘画选手

507

生成 AI 绘画 Midjourney

还在自己一笔一笔画图吗？AI画图要不要了解一下

【AI人工智能系列】3.aconda安装百度飞浆智能平台

231

智能人工智能安装百度

paddle百度飞浆环境安装。以百度多年的深度学习技术研究和业务应用为基础，集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体，是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。

倒反天罡，人类研究起模仿AI了。

177

AI 视频人类。。。

“不行啊，再这么发展下去，人类会取代AI的”

我用AI做了一部《三体》预告片...

134

质感电影 AI 视频

自如Runway画质和一致性更新以后，一直想再用AI做一??

10个 AI Chrome 插件帮助你更快地赚钱

224

https AI 写作文本

10个力荐的 AI 插件

AI生成未来

AIGC最新技术及资讯

159 篇文章

浏览 30.7K

AI生成未来的其他文章

五大在线AI扩图平台，畅玩图片扩展神奇功能

你是否在网上见过许多有趣的图片扩图恶搞？例如AIGC

最高加速超4倍！不依赖特定模型的统一模型压缩框架CPD发布（卡尔斯鲁厄理工学院）

点击下方卡片，关注“AI生成未来”>>后台回复“

海报生成如此简单！OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2

点击下方卡片，关注“AI生成未来”>>后台回复“

如何科学评价视频生成模型？AIGCBench：全面可扩展的视频生成任务基准来了！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

无性能损失！让SAM加速近50倍！EfficientViT-SAM来了！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

随机阅读

3分钟弄懂CMMI2.0基准评估的抽样规则

加入社区微信群

与行业大咖零距离交流学习

SAFe6.0与CMMI3.0映射
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：xdwjack
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

一文详解AutoEncoder在图像生成和多模态大模型中的应用

AutoEncoder应用于图像生成与多模态大模型摘要

VAE

VQ-VAE

VQ-VAE-2

VQ-GAN

ViT-VQ-GAN

DALL-E

SPAE

HQ-VAE

UniCode

Language-Quantized AutoEncoder LQAE

RQ-VAE

Make-A-Scene

MaskGIT

Muse

Parti

VAR

这个“淄”味真不错！如何用产品思维看淄博烧烤？

联系我们

融实践库

微信公众号

微信视频号

社区微信群