扫码阅读

手机扫码阅读

从PixArt α 到 Σ: 关于高效Diffusion Models你想知道的一切

600 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：从PixArt α 到 Σ: 关于高效Diffusion Models你想知道的一切

文章来源：

AI生成未来

扫码关注公众号

文章摘要

前言

自Sora和Stable Diffusion 3推出后，Diffusion Transformer引起广泛关注，尤其在视频帧建模和图像块建模方面的突破。华为诺亚方舟实验室发布的PixArt-Σ基于Diffusion Transformer设计，展现了其独特的效率(efficiency)。本文将探讨PixArt系列与高效diffusion模型之间的关系。

Diffusion Transformer

Diffusion Transformer结合了diffusion models和Transformer的优势。它使用Transformer-based backbone增强了self-attention，通过拼接方式融合class和timestep作为condition，并通过可学习的scale & shift实现条件融合。PixArt系列的研究动机在于efficiency，尽管Transformer通常因计算需求庞大而受批评，但在图像生成领域，diffusion models的计算需求更高。

PixArt-α

PixArt-α关注于快速训练文生图模型。通过对比不同模型的算力和数据消耗，提出了一个fine-tuning策略，分为三个阶段：Pixel dependency learning、Text-image alignment learning和模型微调。为了改进text-image alignment，采用了自动化的captioning方案和多模态的Vision-Language Models。

PixArt-β——Efficient Yet Fast

PixArt-β在PixArt-α的基础上，进一步提出了Fast和Controllable的特性。通过Latent Consistency Distillation (LCD)和ControlNet-Transformer的改进，实现了快速且可控的图像生成。特别是对于高分辨率图片，表现出了高度的效率与保真度。

PixArt-Σ——Efficient Yet High-Resolution

PixArt-Σ关注于4K文生图生成的高效率。采用了KV Compression压缩策略，减少key和value在attention运算中的特征冗余。同时提出了weak-to-strong training方法，包括VAE替换、分辨率微调和KV Compression fine-tune。

结语

PixArt系列的提出不仅证实了Diffusion Transformer的有效性，而且展示了从class-conditional models到text-to-image generation models的fine-tuning范式。这对后续研究提供了有价值的参考。

想要了解更多内容？

查看原文：从PixArt α 到 Σ: 关于高效Diffusion Models你想知道的一切

文章来源：

AI生成未来

扫码关注公众号

相关推荐

【内含文件】有赞产品AI化的五条底层原则

512

这三个文档，相信能对你做SaaS产品有更多的思考。

奥运会大规模使用中国AI大模型！

258

AI 模型智能视频

AI圈最近又有啥新鲜事？

AI重走西游路，原来《黑神话：悟空》才是终极导航。

259

游戏悟空神话风景

黑神话悟空在AI眼里，怎么是旅游地图啊?

实测完OpenAI的SearchGPT，我发现它有点不太聪明的亚子。

511

AI SearchGPT 搜索 21

瑜不掩瑕。

用2000条数据训练后的AI，居然比我更懂起标题？

392

标题数据集微调 AI

AI，让懒逼生活更美好

为Stable Diffusion模型瘦身并达到SOTA！LAPTOP-Diff：剪枝蒸馏新高度（OPPO）

304

击下方卡片，关注“AI生成未来”>>后台回复“GAI

AIGC最新技术及资讯

207 篇文章

浏览 83.7K

AI生成未来的其他文章

CVPR`24 | FRESCO：高质量、连贯的Zero-shot视频转换新方案（北大&南洋理工）

点击下方卡片，关注“AI生成未来”>>后台回复“

生成一个好故事！StoryDiffusion:一致自注意力和语义运动预测器必不可少（南开&字节）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

LLM和自动驾驶强强联合 | DriveDreamer-2：自动驾驶定制视频生成世界模型!

点击下方卡片，关注“AI生成未来”>>后台回复“

图像生成地表最强！Playground v2.5技术报告解读重磅来袭！超越SD、DALL·E 3和 Midjourney

点击上方蓝字，关注 AI 生成未来，干货不停后台??

精度提升10个点！HD-Painter:无需训练的文本引导高分辨率图像修复方案！

作者：Zhangyang Wang等解读：AIGCer基于文本到图像扩散?

随机阅读

解读微信团队的七个价值观

使用Gompertz模型预测非典的趋势

你是否真的读懂了回归方程y=ax+b?

开好迭代回顾会议的5个原则

《以道御术》荣耀上市，专家书评

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线