深入探讨用于图像和视频生成的基于transformer的扩散模型

发布于 2024-10-22

434

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：深入探讨用于图像和视频生成的基于transformer的扩散模型

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章摘要

本文介绍了GenTron，一个基于Transformer的扩散模型，用于图像和视频生成。作者首先对分类到文本的Diffusion Transformers（DiTs）进行调整，并对调整机制进行探索。随后，将GenTron参数规模扩展至3B以上，显著提升视觉质量，并将其扩展至文本到视频的生成。人类评估显示，GenTron在视觉质量和文本对齐方面胜过SDXL，并且在T2I-CompBench组合生成基准测试中展现出色。

引言

扩散模型在内容创建方面取得显著进展，但在视觉生成领域仍主要使用基于CNN的U-Net架构。为了探索Transformer在视觉生成中的应用并填补架构选择的差距，本文对使用Transformer进行视觉生成进行了彻底研究。

相关工作

扩散模型已在文本到图像（T2I）和文本到视频（T2V）生成中取得成功。基于Transformer的扩散模型引起了研究兴趣，其中U-ViT和DiT展现了基于Transformer进行扩散的潜力。

方法

介绍了GenTron的文本到图像生成方法，包括文本编码器模型、embedding集成方法，以及GenTron的扩展策略。此外，将GenTron应用扩展至视频生成，引入了时间自注意力和无运动引导的概念。

实验

实验包括训练方案、评估指标和主要结果。GenTron在T2I生成中的表现优于SDXL，并在T2V生成中也展现出优异的性能。

结论

研究显示，GenTron在图像和视频生成方面表现出色，特别是当模型规模增大时。为视频生成引入的无运动引导显著提高了视频的视觉质量。本文的研究有助于填补在扩散模型中应用Transformer的差距。

AI生成未来

查看原文：深入探讨用于图像和视频生成的基于transformer的扩散模型

文章来源：

AI生成未来

扫码关注公众号

相关推荐

进化思考(3)：医疗AI，重在基层

470

医疗人工智能 ChatGPT 医生

一名4岁的小男孩，身患怪病。看了17个医生，都没找?

当Kimi悄悄的进军浏览器，他们好像在下一盘很大的棋。

384

Kimi 解释插件浏览器

你也可以永远相信Kimi。

一手实测Claude3 - GPT4啊，你的时代终于要过去了

333

Claude3 。。。推理 GPT4V

肝了一夜，新鲜的评测

天津大学推出“AI学长”

339

AI 模型 https 15

AI圈又发生了啥新鲜事？天津大学推出“AI 学长”海?

用ChatGPT写作，提示词的四个层次

338

如何通过提示词的优化，提高ChatGPT输出内容的质量。

GPT-4正式发布，ChatGPT迎来史诗级更新

51

GPT 。。。模型 OpenAI

这是，人类的落日

AIGC最新技术及资讯

207 篇文章

浏览 87.7K

AI生成未来的其他文章

好用又免费的AI生图创作平台介绍

好用又免费的AI生图创作平台介绍

如何"正确"使用Stable Diffusion？文本到图像扩散模型中记忆化实用分析（浙大）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

ACM MM24 | Hi3D: 3D生成领域再突破！新视角生成和高分辨率生成双SOTA(复旦&智象等)

点击下方卡片，关注“AI生成未来” 作者：Haibo Yang ??

无性能损失！让SAM加速近50倍！EfficientViT-SAM来了！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

迈向统一扩散框架！Adobe提出RGB↔X：双重利好下游编辑任务 | SIGGRAPH'24

击下方卡片，关注“AI生成未来”>>后台回复“GAI

随机阅读

《非暴力沟通》读书笔记

3分钟弄懂CMMI2.0基准评估的抽样规则

三个团队的站立会议旁观笔记

案例：缺陷状态数据分析

通过雷达图的面积进行总体对比分析是不可靠的！

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线