扫码阅读

手机扫码阅读

一文详解AutoEncoder在图像生成和多模态大模型中的应用

845 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：一文详解AutoEncoder在图像生成和多模态大模型中的应用

文章来源：

AI生成未来

扫码关注公众号

AutoEncoder应用于图像生成与多模态大模型摘要

本文由作者vasgaowei原创，编辑由“AI生成未来”团队提供，主要探讨了AutoEncoder在自回归图像生成和多模态大模型中的应用。

VAE

变分自编码器（VAE）是一种通过概率图模型进行图像生成的方法。原文提供了多个资源链接，供读者深入学习VAE的数学推导和理解。

VQ-VAE

VQ-VAE通过隐特征空间和量化技术优化编码器和解码器，使用向量量化（VQ）学习嵌入空间，以及采用移动平均函数更新字典项。文章解释了VQ-VAE的结构和目标函数。

VQ-VAE-2

Google Deepmind的VQ-VAE-2在VQ-VAE的基础上进行改进，引入层次化的向量量化和自回归先验模型PixelCNN的训练。

VQ-GAN

VQ-GAN结合了VQ-VAE和GAN的训练方法，使用Transformer生成特征向量ID，并通过Decoder生成图片，同时采用感知损失和基于patch的判别器。

ViT-VQ-GAN

ViT-VQ-GAN使用ViT提取图像特征，并通过降维和量化技术改进VQ-GAN，以解决学习不充分的问题。

DALL-E

DALL-E采用自回归方式生成图片，通过Transformer模型对图片和文本caption的联合分布概率进行建模。

SPAE

SPAE扩展了VQ-GAN，使用预训练的LLM的codebook进行图像特征量化，并采用FPN的思想进行多尺度量化。

HQ-VAE

HQ-VAE通过层次化量化捕捉不同层级的结构化信息，并使用层次化量化的Transformer进行自回归建模。

UniCode

UniCode针对多模态大语言模型学习了一个文本-图像统一的Codebook，对图像和文本进行编码量化。

Language-Quantized AutoEncoder LQAE

LQAE使用预训练的LLM的codebook进行图像特征的量化，并采用masked image modeling的方式进行训练。

RQ-VAE

RQ-VAE通过残差量化和自回归Transformer对图片特征进行多尺度量化。

Make-A-Scene

Make-A-Scene采用自回归Transformer进行图像生成，并控制图像生成条件。

MaskGIT

MaskGIT使用masked modeling方式生成图片，提高了图片生成的速度。

Muse

Muse预测token，采用不同分辨率的VQ Tokenizer和Transformer以及微调的Decoder生成图片。

Parti

Parti通过自回归Transformer生成图片的token，并通过VQ-GAN的Decoder得到生成图片。

VAR

VAR通过自回归方式生成高分辨率图片，并对图片特征进行多尺度离散量化。

文章还提供了加入AIGC技术交流群的方法，并推荐了相关的技术文章。

想要了解更多内容？

查看原文：一文详解AutoEncoder在图像生成和多模态大模型中的应用

文章来源：

AI生成未来

扫码关注公众号

相关推荐

人工智能要从小学抓起吗？小学生该如何学习AI？

575

AI 人工智能学习教材

中国首部中小学人工智能教材主编称：“我们的小学生如果不能适应将来机器人遍地走，人工智能到处有的未来时代的话，那是比较悲哀的”。

一文看懂苹果2024秋季发布会：毫无创新的公式化2小时。

384

iPhone 苹果 AI 。。。

不是史诗级更新，就是“史”。

这可能是真正的AI绘图国产之光，它的名字，叫秒画。

750

AI MJ 细节摄影

这可能就是国内最好的了。

7个AI工具，助产品经理工作效率翻倍

1337

产品 AI 工具反馈

介绍七个产品管理AI工具。

寥寥数笔，动画自成！阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

391

点击下方卡片，关注“AI生成未来”>>后台回复“

代码逐行解析！冠军选手解读锂电池生产温度预测赛事方案

445

代码逐行解析，可一键运行。

AI生成未来

AIGC最新技术及资讯

203 篇文章

浏览 81.3K

AI生成未来的其他文章

超越所有SOTA达11%！媲美全监督方法 | UC伯克利开源UnSAM

点击下方卡片，关注“AI生成未来”>>后台回复“

生成一个好故事！StoryDiffusion:一致自注意力和语义运动预测器必不可少（南开&字节）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

从图像到视频：浅谈Video Diffusion Models背后的底层原理

点击下方卡片，关注“AI生成未来”作者：叫我Alonzo??

只需微调，大幅提升人脸生成质量！上交联合OPPO发布新标准和新方法

点击下方卡片，关注“AI生成未来”>>后台回复“

如何"正确"使用Stable Diffusion？文本到图像扩散模型中记忆化实用分析（浙大）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

随机阅读

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

一文详解AutoEncoder在图像生成和多模态大模型中的应用

AutoEncoder应用于图像生成与多模态大模型摘要