CVPR`24 | 4D编辑哪家强？浙大首次提出通用指导4D编辑框架：Instruct 4D-to-4D

发布于 2024-10-26

344

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：CVPR`24 | 4D编辑哪家强？浙大首次提出通用指导4D编辑框架：Instruct 4D-to-4D

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章摘要

摘要

Instruct 4D-to-4D是一个通过2D扩散模型实现4D感知和时空一致性的项目，用于高质量的动态场景编辑。通过视4D场景为伪3D场景，解耦为视频编辑和伪3D场景编辑的子问题，通过anchor感知注意模块增强Instruct-Pix2Pix (IP2P)模型，实现批处理和一致性编辑。光流引导的外观传播和基于深度的投影管理伪3D场景数据，通过迭代编辑实现收敛。在单目和多摄像头场景中进行评估，结果表明其在空间和时间一致性方面的出色表现和细节清晰度的显著提升。

介绍

神经辐射场（NeRF）已成为3D/4D动态场景的主要表示方法。指令引导的编辑任务通过自然语言进行，而将2D扩散模型能力扩展到3D/4D场景存在挑战。Instruct 4D-to-4D通过视4D场景为伪3D场景，并将编辑过程分为时间一致性编辑和伪3D场景编辑，解决了这一问题。通过anchor感知注意力模块和光流引导的滑动窗口方法，实现了高效的视频编辑。

方法

Instruct 4D-to-4D是一个新颖的pipeline，通过从Instruct-Pix2Pix (IP2P)模型中提炼来编辑4D场景，采用基于关键视角的编辑方法。通过增强的IP2P和光流技术，实现了时间一致性编辑。利用基于深度的投影和光流技术，高效生成一致的编辑数据集。通过迭代式数据集更新和并行化策略，提高了编辑效率。

实验

本文的实验覆盖了单目和多摄像头动态场景的编辑任务。通过使用NeRFPlayer作为NeRF主干，本文展现了与基线方法的比较，证明了Instruct 4D-to-4D在实现高质量的编辑结果方面的优越性。实验结果显示，Instruct 4D-to-4D在各种任务中实现了出色的空间-时间一致性和细节清晰度。