一文详解AutoEncoder在图像生成和多模态大模型中的应用
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AutoEncoder应用于图像生成与多模态大模型摘要
本文由作者vasgaowei原创,编辑由“AI生成未来”团队提供,主要探讨了AutoEncoder在自回归图像生成和多模态大模型中的应用。
VAE
变分自编码器(VAE)是一种通过概率图模型进行图像生成的方法。原文提供了多个资源链接,供读者深入学习VAE的数学推导和理解。
VQ-VAE
VQ-VAE通过隐特征空间和量化技术优化编码器和解码器,使用向量量化(VQ)学习嵌入空间,以及采用移动平均函数更新字典项。文章解释了VQ-VAE的结构和目标函数。
VQ-VAE-2
Google Deepmind的VQ-VAE-2在VQ-VAE的基础上进行改进,引入层次化的向量量化和自回归先验模型PixelCNN的训练。
VQ-GAN
VQ-GAN结合了VQ-VAE和GAN的训练方法,使用Transformer生成特征向量ID,并通过Decoder生成图片,同时采用感知损失和基于patch的判别器。
ViT-VQ-GAN
ViT-VQ-GAN使用ViT提取图像特征,并通过降维和量化技术改进VQ-GAN,以解决学习不充分的问题。
DALL-E
DALL-E采用自回归方式生成图片,通过Transformer模型对图片和文本caption的联合分布概率进行建模。
SPAE
SPAE扩展了VQ-GAN,使用预训练的LLM的codebook进行图像特征量化,并采用FPN的思想进行多尺度量化。
HQ-VAE
HQ-VAE通过层次化量化捕捉不同层级的结构化信息,并使用层次化量化的Transformer进行自回归建模。
UniCode
UniCode针对多模态大语言模型学习了一个文本-图像统一的Codebook,对图像和文本进行编码量化。
Language-Quantized AutoEncoder LQAE
LQAE使用预训练的LLM的codebook进行图像特征的量化,并采用masked image modeling的方式进行训练。
RQ-VAE
RQ-VAE通过残差量化和自回归Transformer对图片特征进行多尺度量化。
Make-A-Scene
Make-A-Scene采用自回归Transformer进行图像生成,并控制图像生成条件。
MaskGIT
MaskGIT使用masked modeling方式生成图片,提高了图片生成的速度。
Muse
Muse预测token,采用不同分辨率的VQ Tokenizer和Transformer以及微调的Decoder生成图片。
Parti
Parti通过自回归Transformer生成图片的token,并通过VQ-GAN的Decoder得到生成图片。
VAR
VAR通过自回归方式生成高分辨率图片,并对图片特征进行多尺度离散量化。
文章还提供了加入AIGC技术交流群的方法,并推荐了相关的技术文章。
想要了解更多内容?
白皮书上线