CVPR`24 | 4D编辑哪家强?浙大首次提出通用指导4D编辑框架:Instruct 4D-to-4D

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

摘要
Instruct 4D-to-4D是一个通过2D扩散模型实现4D感知和时空一致性的项目,用于高质量的动态场景编辑。通过视4D场景为伪3D场景,解耦为视频编辑和伪3D场景编辑的子问题,通过anchor感知注意模块增强Instruct-Pix2Pix (IP2P)模型,实现批处理和一致性编辑。光流引导的外观传播和基于深度的投影管理伪3D场景数据,通过迭代编辑实现收敛。在单目和多摄像头场景中进行评估,结果表明其在空间和时间一致性方面的出色表现和细节清晰度的显著提升。
介绍
神经辐射场(NeRF)已成为3D/4D动态场景的主要表示方法。指令引导的编辑任务通过自然语言进行,而将2D扩散模型能力扩展到3D/4D场景存在挑战。Instruct 4D-to-4D通过视4D场景为伪3D场景,并将编辑过程分为时间一致性编辑和伪3D场景编辑,解决了这一问题。通过anchor感知注意力模块和光流引导的滑动窗口方法,实现了高效的视频编辑。
方法
Instruct 4D-to-4D是一个新颖的pipeline,通过从Instruct-Pix2Pix (IP2P)模型中提炼来编辑4D场景,采用基于关键视角的编辑方法。通过增强的IP2P和光流技术,实现了时间一致性编辑。利用基于深度的投影和光流技术,高效生成一致的编辑数据集。通过迭代式数据集更新和并行化策略,提高了编辑效率。
实验
本文的实验覆盖了单目和多摄像头动态场景的编辑任务。通过使用NeRFPlayer作为NeRF主干,本文展现了与基线方法的比较,证明了Instruct 4D-to-4D在实现高质量的编辑结果方面的优越性。实验结果显示,Instruct 4D-to-4D在各种任务中实现了出色的空间-时间一致性和细节清晰度。
结论
Instruct 4D-to-4D是首个将4D场景视为伪3D场景进行编辑的框架,实现了高效和高质量的编辑。本文的工作展现了4D场景编辑的难度和复杂性,同时提供了未来研究的基础。
想要了解更多内容?



白皮书上线