扫码阅读
手机扫码阅读
长视频生成速度提升100倍!新加坡国立提出Video-Infinity:分布式长视频生成
73 2024-10-25
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
摘要
本文介绍了Video-Infinity,一种能够在多个GPU上并行处理以生成长视频的分布式推理pipeline。它通过剪辑并行和双范围注意力这两种一致性机制,最小化通信开销,并有效平衡局部和全局上下文,实现快速生成长视频。在8×Nvidia 6000 Ada GPU上,本文的方法可以在5分钟内生成最多2300帧的视频,速度比现有方法快100倍。
亮点直击
- 首次通过分布式并行计算解决长视频生成问题,提高可扩展性并减少生成时间。
- 引入剪辑并行化优化GPU间的上下文信息共享,双范围注意力机制调整时间自注意力以确保设备间视频的连贯性。
- 与现有的超长文本到视频方法Streaming T2V相比,本文的方法可以快达100倍。
视频扩散的剪辑并行化机制
Video-Infinity将视频的潜变量分割成片段,分散到多设备上并行去噪处理。剪辑并行机制优化了设备间时间信息的同步,而双范围注意力机制集成本地和全局上下文到注意力中,实现无需额外训练的长视频一致性。
实验设置
实验中选择了VideoCrafter2模型作为基础,并使用VBench作为评估工具。基线方法包括FreeNoise、Streaming T2V和OpenSora V1.1。实验在8 × Nvidia 6000 Ada(48G内存)上进行。
主要结果
本文的方法在生成长视频方面表现出色,不仅视频长度远超现有方法,而且生成速度大幅提升,视频质量在多个指标上也得到了保证。
结论
Video-Infinity显著改进了长视频生成的速度和长度,为长视频生成效率设立了新的基准,尽管它依赖于多GPU的可用性,并且在涉及场景转换的视频生成方面表现不佳。
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
SD和Sora们背后的关键技术!一文搞懂所有 VAE 模型(4个AE+12个VAE原理汇总)
点击下方卡片,关注“AI生成未来”>>关注【AI生
谷歌重磅发布CAT3D:一分钟搞定任意数量视图到3D场景重建
点击下方卡片,关注“AI生成未来”>>后台回复“
超越α!PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT(华为诺亚)
点击下方卡片,关注“AI生成未来”>>后台回复“
车道拓扑、目标布局、天气条件全都要!Text2Street:犀利的街景生成神器!
关注【AI生成未来】公众号,回复“GAI”,免费获取??
简单、快速、低成本、强大!高分辨率图像生成扩散外推方法CutDiffusion发布!
击下方卡片,关注“AI生成未来”>>后台回复“GAI
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线