FDGaussian:又快又好的三维重建方案 | Gaussian Splatting和扩散模型超强联合
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
本文介绍了FDGaussian,一种用于单张图像三维重建的两阶段框架。该框架通过正交平面分解机制提取三维几何特征,生成一致的多视角图像,并利用epipolar注意力和高斯发散显著性(GDS)加速Gaussian Splatting方法。实验证明,FDGaussian能够从单张图像中重建高质量、多视角一致性的三维对象。
介绍
单视图三维重建对于机器理解真实世界至关重要。隐式和显式表示方法都有其局限性。FDGaussian结合3D Gaussian Splatting,克服了单视图输入时忽略的空间对应关系问题,并解决了Gaussian Splatting的原始实现中存在的问题。FDGaussian由两个阶段组成:几何感知的多视角生成和随后的Gaussian Splatting重建。
相关工作
三维重建的表示方法包括显式表示(如点云、体素、网格)和隐式表示(如NeRF)。Gaussian Splatting是一种新的表示方法,结合了两者的优点。2D扩散模型在3D生成任务中的应用显示了将预训练的2D扩散模型与3D重建结合的潜力。
方法
FDGaussian的多视角图像生成阶段通过解耦正交平面提取三维特征,并结合CLIP编码器获取语义条件输入到扩散模型。重建阶段引入epipolar注意力来融合一致视图,并提出GDS指标加速优化过程。附加的epipolar注意力机制促进了视图之间的特征关联,提高了渲染效率和准确度。
实验
在Objaverse和GSO数据集上进行实验和消融分析,FDGaussian在多视角一致性和几何细节上表现出色。它也能够与文本到图像模型无缝集成,适用于文本到三维的应用。
结论
FDGaussian是一个有效的单视图三维重建框架,能够生成一致性的多视角图像和高质量的三维对象。尽管存在一些局限性,但FDGaussian的成功展示了正交平面分解和Gaussian Splatting在三维重建中的潜力。
想要了解更多内容?