扫码阅读

手机扫码阅读

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

642 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

文章来源：

AI生成未来

扫码关注公众号

摘要

Vidu是由清华大学与生数科技联合发布的中国首个长视频生成AI大模型。作为一个高性能的文本到视频生成器，Vidu能够生成长达16秒的1080p视频，并且在专业摄影技术的理解、连贯性和动态性方面表现出色。此外，Vidu在其他可控视频生成方面也展示出有希望的结果。

介绍

Vidu利用U-ViT扩散模型作为骨干，通过transformer的长序列建模能力突破了传统视频生成模型的持续时间限制。此外，Vidu通过训练高性能视频标题生成器和重构标题技术，有效地提高了训练和推断效率。

文本到视频生成

Vidu通过自编码器降低视频空间和时间维度，并使用U-ViT作为噪声预测网络模型压缩表示。Vidu的训练包含大量文本-视频对，通过自动化标注解决了人类标注的不可行性。

生成不同长度的视频

由于Vidu在各种长度的视频上进行了训练，它能够生成包括单帧图像在内的多种长度的视频。

3D一致性和动态效果

Vidu生成的视频具有强大的3D一致性，并且能够生成包含切换、过渡效果、摄像机运动和光影效果的视频，同时还能够有效地描绘角色的情感和丰富的想象力。

与Sora的比较

虽然Sora是最强大的文本到视频生成器，但Vidu在某些方面的生成性能与Sora相当，尽管Sora不是公开可访问的。

其他可控视频生成

Vidu在边缘检测到视频生成、视频预测和主体驱动生成方面进行了初步实验，均展示出有希望的结果。

结论

Vidu展示了在视频生成的持续时间、连贯性和动态性方面的强大能力，并与Sora相当。尽管存在细节缺陷和物理规律偏差，但通过进一步的扩展有望解决这些问题。

想要了解更多内容？

查看原文：Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

文章来源：

AI生成未来

扫码关注公众号

相关推荐

AIGC｜人人都在说的向量数据库究竟是什么？小白也能读懂！

2706

向量数据库 AI

人工智能时代你必须掌握的基本知识【建议收藏】

AI集成小工具，AI大模型都在这了

341

工具 AI 模型推送

这是一款AI集成的小工具，包含市面上的大部分AI产品，比如ChatGPT还有百度的文心一言，腾讯的混元大模型等等。

一网打尽，25款能在本地流畅运行大模型的工具

1757

模型语言 AI https

在本地运行大型语言模型（LLMs）的25个工具。

Ray框架解析，轻松入门Python分布式机器学习

601

Ray 模型集群 PyTorch

介绍Ray生态系统的核心元素以及如何将其与PyTorch配合使用。

图像复原的天花板在哪里？SUPIR：开创性结合文本引导先验和模型规模扩大

342

关注【AI生成未来】公众号，回复“GAI”，免费获取??

2024年了，大模型时代下的DL研究者都需要些什么？

328

点击下方卡片，关注“AI生成未来”>>后台回复“

AI生成未来

AIGC最新技术及资讯

159 篇文章

浏览 69K

AI生成未来的其他文章

AI论文润色平台一览，让你的论文更加流畅易懂！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

精细化图像编辑！LocInv：优化交叉注意力泄漏问题（国科大&巴塞罗那自治大学）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

一文详解多模态智能体（LMAs）最新进展（核心组件/分类/评估/应用）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

简单、快速、低成本、强大！高分辨率图像生成扩散外推方法CutDiffusion发布！

击下方卡片，关注“AI生成未来”>>后台回复“GAI

生成一个好故事！StoryDiffusion:一致自注意力和语义运动预测器必不可少（南开&字节）

击下方卡片，关注“AI生成未来”>>后台回复“GAI

随机阅读

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

摘要