可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
亮点直击
SAM2POINT是一种创新的3D分割技术,它将3D数据体素化为视频格式,避免复杂的2D-3D投影。这个方法支持多种类型的3D提示(点、框、mask),并且在多种场景中(包括室内外场景和原始LiDAR数据)展现了强大的泛化能力。
技术解析
SAM2POINT基于Segment Anything Model 2 (SAM 2),将3D数据解释为一系列多方向视频,以实现无需进一步训练或投影的3D空间分割。它支持灵活的3D提示,包括3D点、3D框和mask。这些提示可以单独使用或组合使用,提高分割精度和适应性。此外,SAM2POINT在处理各类具有挑战性的3D场景(例如单个物体、室内外场景和原始LiDAR数据)上表现出色,证明了其优异的零样本泛化能力和跨领域适用性。
应用效果
在多个3D数据集上的演示,包括Objaverse、S3DIS、ScanNet、Semantic3D和KITTI,展示了SAM2POINT在使用不同3D提示对不同数据集进行3D数据分割的能力,突显其强大的泛化性能。
方法细节
SAM2POINT通过3D体素化技术将3D数据格式化,以兼容SAM 2,并避免信息降解和复杂的后处理。它将体素表示转换为多方向视频,实现与视频相同的方式进行3D分割。支持的3D提示类型详细说明了如何将3D点、3D框和3D mask用作分割的2D提示,并在不同方向上生成视频以整合为最终的3D mask预测。
总结与展望
SAM2Point成功地将SAM 2适配于3D分割,展现了利用零样本和可提示框架在不同3D场景中的泛化能力。作为3D分割领域的初步探索,SAM2POINT提供了独特见解,期望成为可提示3D分割研究的基础基准,激励后续研究更深入地挖掘SAM 2在3D领域的潜力。
想要了解更多内容?