扫码阅读
手机扫码阅读

即插即用!CVD:第一个生成具有相机控制的多视图一致视频方案!(斯坦福&港中文)

31 2024-10-26

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

文章摘要

视频生成技术最近取得了巨大进展,特别是在结合摄像机轨迹以控制视频生成方面。然而,从不同摄像机轨迹生成同一场景的视频仍然充满挑战。这项研究介绍了协作视频扩散(CVD)模型,它可以从不同摄像机轨迹渲染的多个视频中生成一致性视频。CVD框架通过极线注意机制促进不同视角视频的一致性,并且通过大量实验证明其性能优于基线。

介绍

尽管视频生成技术取得了进展,但缺乏对摄像机控制的精确控制。最近,一些模型如MotionCtrl和CameraCtrl开始提供摄像机控制的可能,但它们通常局限于单一摄像机轨迹。CVD旨在解决生成一致性视频的挑战,即使在没有大规模多视角视频数据的情况下。

相关工作

视频扩散模型已经能够生成高质量视频,但它们通常缺乏控制机制。尽管一些研究尝试通过引入深度、关键点等条件来提供更精确的控制,摄像机控制的视频生成仍然是一个挑战。在多视图图像生成方面,存在生成连贯多视图图像的研究,但它们通常局限于静态对象或场景。

协作视频生成

CVD模型能够在给定条件下生成多个结构一致的视频。这需要一种新的注意力机制,跨视频注意力,来捕捉不同视频之间的上下文关系。CVD面临的一个挑战是缺乏大规模的多视角视频数据,因此采用了在单目视频数据集上训练的方法。

具有摄像机控制的协作视频扩散

CVD模型接受文本提示和一组相机轨迹,生成数量相同的协作视频。通过引入跨视角同步模块和混合训练策略,CVD能够生成具有一致内容和动态的视频对。此外,CVD采用多视角采样策略,在推理过程中生成任意数量的视频。

定量结果与定性结果

实验显示CVD在几何一致性、语义一致性和视频保真度方面优于现有基线模型。CVD还展示了生成任意数量不同视角下共享相同内容的视频的能力。

讨论与限制

CVD是一个重要的进展,能够生成多视角一致视频,并具有摄像机控制能力。然而,它依赖于基础模型的性能,并且不能实时合成视频。CVD的另一个限制是它未能解决内部一致性问题。

更广泛的影响

CVD对电影制作和内容创作等领域具有广泛的影响。但也存在被滥用制作虚假内容如深度伪造的风险。研究者们呼吁持续改进深度伪造检测技术以应对这种风险。

这段HTML内容包含了原文的主要内容和结构,以提供一个简洁的摘要。

想要了解更多内容?