高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
ReconX 摘要
亮点直击
ReconX 是一种新型的稀疏视角 3D 场景重建框架,它重新定义了模糊的重建挑战,将其转换为时间生成任务。这个框架结合了3D结构指导到视频扩散模型,并提出了一种基于置信度的3D优化方案(3DGS),通过生成的视频重建场景。ReconX 在多个真实世界数据集上的表现优于现有方法,展现了高质量和强通用性。
研究动机
ReconX 的研究动机是解决从非常稀疏的视角(如仅两个视角)进行3D场景重建和新视角合成的问题。现有方法尽管能生成高逼真的图像,但在视角不足时往往无法生成高质量的未见区域图像。ReconX 通过大型预训练视频扩散模型的强生成先验来生成时间上连贯的视频帧,解决了这一问题。
方法概述
ReconX 通过先构建全局点云以及3D上下文表示空间,然后将其注入视频扩散过程,生成3D一致的视频帧。为解决生成视频间不一致性,使用DUSt3R模型的置信度图和LPIPS损失实现鲁棒的3D重建。此外,提出的3DGS优化方案能有效处理生成帧的不确定性,优化最终的3D场景重建。
实验
ReconX 在多个数据集上进行了广泛的实验,并与多种基准方法进行了比较。实验结果显示,ReconX 在小角度和大角度变化下均超越了现有的最先进模型。跨数据集评估也展示了ReconX 强大的泛化能力,尤其是在训练数据和测试数据领域差距较大时。
结论与未来工作
ReconX 是一种新颖的从稀疏视角进行三维重建的方法,能利用视频扩散模型生成高质量和高一致性的观察帧。然而,其性能仍受到所使用扩散模型的限制,并在未来工作中可以进一步探索端到端三维场景重建的集成优化以及一致的四维场景重建。
想要了解更多内容?