扫码阅读
手机扫码阅读

一文详解AutoEncoder在图像生成和多模态大模型中的应用

331 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:一文详解AutoEncoder在图像生成和多模态大模型中的应用
文章来源:
AI生成未来
扫码关注公众号
AutoEncoder应用于图像生成与多模态大模型摘要

AutoEncoder应用于图像生成与多模态大模型摘要

本文由作者vasgaowei原创,编辑由“AI生成未来”团队提供,主要探讨了AutoEncoder在自回归图像生成和多模态大模型中的应用。

VAE

变分自编码器(VAE)是一种通过概率图模型进行图像生成的方法。原文提供了多个资源链接,供读者深入学习VAE的数学推导和理解。

VQ-VAE

VQ-VAE通过隐特征空间和量化技术优化编码器和解码器,使用向量量化(VQ)学习嵌入空间,以及采用移动平均函数更新字典项。文章解释了VQ-VAE的结构和目标函数。

VQ-VAE-2

Google Deepmind的VQ-VAE-2在VQ-VAE的基础上进行改进,引入层次化的向量量化和自回归先验模型PixelCNN的训练。

VQ-GAN

VQ-GAN结合了VQ-VAE和GAN的训练方法,使用Transformer生成特征向量ID,并通过Decoder生成图片,同时采用感知损失和基于patch的判别器。

ViT-VQ-GAN

ViT-VQ-GAN使用ViT提取图像特征,并通过降维和量化技术改进VQ-GAN,以解决学习不充分的问题。

DALL-E

DALL-E采用自回归方式生成图片,通过Transformer模型对图片和文本caption的联合分布概率进行建模。

SPAE

SPAE扩展了VQ-GAN,使用预训练的LLM的codebook进行图像特征量化,并采用FPN的思想进行多尺度量化。

HQ-VAE

HQ-VAE通过层次化量化捕捉不同层级的结构化信息,并使用层次化量化的Transformer进行自回归建模。

UniCode

UniCode针对多模态大语言模型学习了一个文本-图像统一的Codebook,对图像和文本进行编码量化。

Language-Quantized AutoEncoder LQAE

LQAE使用预训练的LLM的codebook进行图像特征的量化,并采用masked image modeling的方式进行训练。

RQ-VAE

RQ-VAE通过残差量化和自回归Transformer对图片特征进行多尺度量化。

Make-A-Scene

Make-A-Scene采用自回归Transformer进行图像生成,并控制图像生成条件。

MaskGIT

MaskGIT使用masked modeling方式生成图片,提高了图片生成的速度。

Muse

Muse预测token,采用不同分辨率的VQ Tokenizer和Transformer以及微调的Decoder生成图片。

Parti

Parti通过自回归Transformer生成图片的token,并通过VQ-GAN的Decoder得到生成图片。

VAR

VAR通过自回归方式生成高分辨率图片,并对图片特征进行多尺度离散量化。

文章还提供了加入AIGC技术交流群的方法,并推荐了相关的技术文章。

想要了解更多内容?

查看原文:一文详解AutoEncoder在图像生成和多模态大模型中的应用
文章来源:
AI生成未来
扫码关注公众号