从PixArt α 到 Σ: 关于高效Diffusion Models你想知道的一切
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
前言
自Sora和Stable Diffusion 3推出后,Diffusion Transformer引起广泛关注,尤其在视频帧建模和图像块建模方面的突破。华为诺亚方舟实验室发布的PixArt-Σ基于Diffusion Transformer设计,展现了其独特的效率(efficiency)。本文将探讨PixArt系列与高效diffusion模型之间的关系。
Diffusion Transformer
Diffusion Transformer结合了diffusion models和Transformer的优势。它使用Transformer-based backbone增强了self-attention,通过拼接方式融合class和timestep作为condition,并通过可学习的scale & shift实现条件融合。PixArt系列的研究动机在于efficiency,尽管Transformer通常因计算需求庞大而受批评,但在图像生成领域,diffusion models的计算需求更高。
PixArt-α
PixArt-α关注于快速训练文生图模型。通过对比不同模型的算力和数据消耗,提出了一个fine-tuning策略,分为三个阶段:Pixel dependency learning、Text-image alignment learning和模型微调。为了改进text-image alignment,采用了自动化的captioning方案和多模态的Vision-Language Models。
PixArt-β——Efficient Yet Fast
PixArt-β在PixArt-α的基础上,进一步提出了Fast和Controllable的特性。通过Latent Consistency Distillation (LCD)和ControlNet-Transformer的改进,实现了快速且可控的图像生成。特别是对于高分辨率图片,表现出了高度的效率与保真度。
PixArt-Σ——Efficient Yet High-Resolution
PixArt-Σ关注于4K文生图生成的高效率。采用了KV Compression压缩策略,减少key和value在attention运算中的特征冗余。同时提出了weak-to-strong training方法,包括VAE替换、分辨率微调和KV Compression fine-tune。
结语
PixArt系列的提出不仅证实了Diffusion Transformer的有效性,而且展示了从class-conditional models到text-to-image generation models的fine-tuning范式。这对后续研究提供了有价值的参考。
想要了解更多内容?
白皮书上线