扫码阅读

手机扫码阅读

超越α！PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT（华为诺亚）

489 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：超越α！PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT（华为诺亚）

文章来源：

AI生成未来

扫码关注公众号

摘要：

本研究提出了PixArt-Σ，一种基于Diffusion Transformer（DiT）的文本到图像（T2I）扩散模型，能够直接生成4K分辨率高质量图像。PixArt-Σ的主要特点是通过“弱到强训练”策略，利用高质量数据和高效Token压缩，以小模型实现高质量图像生成。

关键改进：

整合了更高质量的训练数据，包括3300万高分辨率图像和更精确描述。
提出了高效Token压缩，有效减少计算需求，支持超高分辨率图像生成。

训练策略：

使用强大的变分自编码器（VAE）。
实现从低分辨率到高分辨率的微调。
从没有键值（KV）压缩的模型演化到有KV压缩的模型。

PixArt-Σ在模型大小和训练成本上都显著小于现有的T2I模型，同时在图像质量和文本对齐能力方面优于或接近顶级T2I产品。

评估与比较：

使用一个精心策划的数据集进行评估。
在人类和AI偏好研究中表现出色，与用户提示密切匹配。

结论：

PixArt-Σ展现了其在有限资源下整合新元素以提升模型性能的能力，并为个人研究人员和AIGC社区提供了一个高效、高质量的生成模型。

想要了解更多内容？

查看原文：超越α！PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT（华为诺亚）

文章来源：

AI生成未来

扫码关注公众号

相关推荐

ChatGPT无法访问？来，免费试试它的竞争对手Claude

558

Claude AI Slack ChatGPT

ChatGPT无法访问？来，免费试试它的竞争对手Claude

Llama3来袭，解析最新最强开源大模型

325

模型 AI Meta LangChain

介绍最新开源大型语言模型 Llama 3。

还在花钱制作Logo?这几款免费AI生成Logo平台值得看看

1017

1. AIDesign 传送门：https://ailogo.qq.com/guide/brandname 画?

超燃！纯AI生成《泰坦尼克号》大片！浙大&阿里发布MovieDreamer:超长电影生成"梦工厂"

313

点击下方卡片，关注“AI生成未来”>>后台回复??

深度剖析AI机会，数字人智能对话系统：未来的人机交互新范式

346

Datawhale成员分享。

95%的人不知道！AI时代，最重要的能力原来是...

AI 答案能力好奇心

当答案变得越来越不重要，我们应该怎么做

AI生成未来

AIGC最新技术及资讯

159 篇文章

浏览 71.2K

AI生成未来的其他文章

图片去除背景，无水印下载的六大免费平台！

随着人工智能技术的不断进步，越来越多的应用场景?

ECCV`24 | 编辑能力无上限！北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式！

点击下方卡片，关注“AI生成未来”>>后台回复“

效果超越ControlNet+IP-Adapter和FreeControl！Ctrl-X：可控文生图新框架（加州大学&英伟达）

点击下方卡片，关注“AI生成未来”>>后台回复“

与 ChatGPT 的对话：技术、应用和局限性

摘要人工智能聊天机器人的出现引起了全世界的注意，它可以生成类似人类的句子并写出连贯的文章。

DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

3分钟弄懂CMMI2.0基准评估的抽样规则

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

超越α！PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT（华为诺亚）