CVPR`24 | 4D编辑哪家强?浙大首次提出通用指导4D编辑框架:Instruct 4D-to-4D
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
Instruct 4D-to-4D是一个新颖的指令引导的动态场景编辑框架,它通过将4D场景视为伪3D场景,利用2D扩散模型实现高质量、时空一致的编辑。核心思想是将4D编辑分解为时间一致的视频编辑和伪3D场景编辑两个子问题。本文引入了anchor感知注意模块增强的Instruct-Pix2Pix模型,以及光流引导的滑动窗口模式,以提高编辑的精确度和一致性。通过迭代编辑和基于深度的投影,能够有效管理伪3D场景数据并实现收敛。实验表明,Instruct 4D-to-4D在保持空间和时间一致性的同时,提升了细节和清晰度。
方法
本文提出的Instruct 4D-to-4D框架采用anchor感知的注意力模块和光流技术,实现对长视频或伪视角的一致性编辑。首先,使用基于anchor的IP2P批量生成伪视角的编辑结果,然后通过光流引导的滑动窗口方法传播这些编辑效果。此外,使用基于深度的投影和加权平均传播关键视角的编辑结果到其他视角,以及迭代式数据集更新策略,以高效地生成完整的编辑数据集。
实验
应用于单目和多摄像头动态场景的实验验证了Instruct 4D-to-4D方法的有效性。本文构建了一个IN2N-4D的基线方法,并通过传统的NeRF指标定量评估了编辑结果。实验结果显示,Instruct 4D-to-4D在各种编辑任务中均能实现高质量的编辑结果,并显著优于基线方法。
结论
Instruct 4D-to-4D成功地解决了通用指导4D场景编辑任务,展示了其有效性和高效性。本文的工作开辟了4D场景编辑的新方向,为未来研究奠定了基础。
想要了解更多内容?