扫码阅读
手机扫码阅读

即插即用!CVD:第一个生成具有相机控制的多视图一致视频方案!(斯坦福&港中文)

415 2024-10-26

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

文章摘要

协作视频扩散:具有摄像机控制的一致多视频生成

最近的研究在视频生成领域取得了重大进展,特别是在生成高质量视频方面。本研究介绍了协作视频扩散(CVD),这是一个创新的框架,能够生成一致的多视频内容,同时允许摄像机轨迹的控制。

介绍

虽然现有的视频生成模型能够根据文本或图像输入创建视频,但它们通常缺乏对内容和动作的精确控制。先进的模型开始专注于摄像机控制,通过摄像机轨迹实现更灵活的视频生成。然而,这些方法在生成多个不同摄像机轨迹下的一致视频时遇到了挑战,CVD旨在解决这一问题。

相关工作

视频扩散模型在视频生成方面取得了显著进步,特别是在时间一致性和逼真度方面。可控视频生成方面的研究也在不断发展,但大多数模型仍然缺乏有效的摄像机控制。多视图图像生成方面的工作也取得了一定进展,但在大规模3D场景生成中仍面临挑战。

协作视频生成

CVD通过生成一致的视频对,克服了传统视频扩散模型无法生成多视角一致视频的问题。它通过训练一个模型来生成共享相同基础内容和运动的视频对。

具有摄像机控制的协作视频扩散

CVD接收文本提示和一组摄像机轨迹,并生成数量相同的一致视频。本文采用了两阶段训练策略,结合了RealEstate10K和WebVid10M两个不同的数据集,以提高模型生成视频的一致性和几何完整性。

跨视图同步模块

本文引入了一种基于极线几何的跨视角同步模块,用于在生成过程中维持视频间的结构一致性。

实验

CVD在多个基准测试上优于现有的视频生成模型,包括在地产场景和通用场景中的几何一致性、语义一致性和视频保真度方面。

讨论

CVD代表了多摄像头视频合成领域的一个重要进步,展现了出色的视频生成能力,同时也带来了深度伪造等潜在滥用的风险。

限制

CVD的有效性受其基础模型的性能限制,且由于计算量大,无法实时合成视频。

更广泛的影响

尽管CVD带来了多摄像头视频合成方面的突破,但潜在的滥用风险仍需警惕,并推动深度伪造检测技术的发展。

想要了解更多内容?