扫码阅读
手机扫码阅读

深入探讨用于图像和视频生成的基于transformer的扩散模型

185 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:深入探讨用于图像和视频生成的基于transformer的扩散模型
文章来源:
AI生成未来
扫码关注公众号

文章摘要

本文介绍了GenTron,一个基于Transformer的扩散模型,用于图像和视频生成。作者首先对分类到文本的Diffusion Transformers(DiTs)进行调整,并对调整机制进行探索。随后,将GenTron参数规模扩展至3B以上,显著提升视觉质量,并将其扩展至文本到视频的生成。人类评估显示,GenTron在视觉质量和文本对齐方面胜过SDXL,并且在T2I-CompBench组合生成基准测试中展现出色。

引言

扩散模型在内容创建方面取得显著进展,但在视觉生成领域仍主要使用基于CNN的U-Net架构。为了探索Transformer在视觉生成中的应用并填补架构选择的差距,本文对使用Transformer进行视觉生成进行了彻底研究。

相关工作

扩散模型已在文本到图像(T2I)和文本到视频(T2V)生成中取得成功。基于Transformer的扩散模型引起了研究兴趣,其中U-ViT和DiT展现了基于Transformer进行扩散的潜力。

方法

介绍了GenTron的文本到图像生成方法,包括文本编码器模型、embedding集成方法,以及GenTron的扩展策略。此外,将GenTron应用扩展至视频生成,引入了时间自注意力和无运动引导的概念。

实验

实验包括训练方案、评估指标和主要结果。GenTron在T2I生成中的表现优于SDXL,并在T2V生成中也展现出优异的性能。

结论

研究显示,GenTron在图像和视频生成方面表现出色,特别是当模型规模增大时。为视频生成引入的无运动引导显著提高了视频的视觉质量。本文的研究有助于填补在扩散模型中应用Transformer的差距。

想要了解更多内容?

查看原文:深入探讨用于图像和视频生成的基于transformer的扩散模型
文章来源:
AI生成未来
扫码关注公众号