扫码阅读
手机扫码阅读

Vidu官方论文来了!媲美Sora的国产视频生成器背后技术探秘

225 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:Vidu官方论文来了!媲美Sora的国产视频生成器背后技术探秘
文章来源:
AI生成未来
扫码关注公众号

摘要

Vidu是由清华大学与生数科技联合发布的中国首个长视频生成AI大模型。作为一个高性能的文本到视频生成器,Vidu能够生成长达16秒的1080p视频,并且在专业摄影技术的理解、连贯性和动态性方面表现出色。此外,Vidu在其他可控视频生成方面也展示出有希望的结果。

介绍

Vidu利用U-ViT扩散模型作为骨干,通过transformer的长序列建模能力突破了传统视频生成模型的持续时间限制。此外,Vidu通过训练高性能视频标题生成器和重构标题技术,有效地提高了训练和推断效率。

文本到视频生成

Vidu通过自编码器降低视频空间和时间维度,并使用U-ViT作为噪声预测网络模型压缩表示。Vidu的训练包含大量文本-视频对,通过自动化标注解决了人类标注的不可行性。

生成不同长度的视频

由于Vidu在各种长度的视频上进行了训练,它能够生成包括单帧图像在内的多种长度的视频。

3D一致性和动态效果

Vidu生成的视频具有强大的3D一致性,并且能够生成包含切换、过渡效果、摄像机运动和光影效果的视频,同时还能够有效地描绘角色的情感和丰富的想象力。

与Sora的比较

虽然Sora是最强大的文本到视频生成器,但Vidu在某些方面的生成性能与Sora相当,尽管Sora不是公开可访问的。

其他可控视频生成

Vidu在边缘检测到视频生成、视频预测和主体驱动生成方面进行了初步实验,均展示出有希望的结果。

结论

Vidu展示了在视频生成的持续时间、连贯性和动态性方面的强大能力,并与Sora相当。尽管存在细节缺陷和物理规律偏差,但通过进一步的扩展有望解决这些问题。

想要了解更多内容?

查看原文:Vidu官方论文来了!媲美Sora的国产视频生成器背后技术探秘
文章来源:
AI生成未来
扫码关注公众号