扫码阅读
手机扫码阅读

ECCV`24 | 编辑能力无上限!北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式!

23 2024-10-25

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:ECCV`24 | 编辑能力无上限!北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式!
文章来源:
AI生成未来
扫码关注公众号

摘要

引言

传统3D场景编辑方法受限于固定的输入模式和有限的编辑能力,无法满足用户丰富的语言和编辑需求。为了解决这一问题,本文提出了一种新的编辑范式——CE3D(Chat-Edit-3D),利用大规模语言模型和解耦的2D编辑与3D重建实现灵活高效的场景编辑。

什么是CE3D?

CE3D是一种对话式3D场景编辑方法,通过解析用户文本输入,并调用视觉模型来编辑3D场景。通过Hash-Atlas映射网络,将3D编辑过程映射到2D图集空间,从而实现2D与3D过程的解耦。CE3D提供了强大的扩展性,支持多轮对话,并在多个方面优于传统方法。

方法

CE3D方法的核心是Hash-Atlas网络,它将3D视图映射到2D图集,为此设计了一种基于哈希结构的网络。通过特定训练和损失项,保证图集的自然性和准确性。在图集空间中,采用合并-拆分策略进行编辑,并利用ChatGPT及VQA模型辅助确定编辑区域。

对话系统

CE3D的对话系统考虑了场景文件的处理和用户查询的推理过程。场景文件以特定字符串代替实际文件名,通过前后端处理实现真实文件的管理。同时,ChatGPT被预先注入视觉工具信息,以有效处理用户输入。

编辑能力展示

CE3D展示了其在多轮对话中处理各种编辑请求的能力,如对象移除、风格迁移、深度图预测等,以及视觉问答和文本对话任务。

未来展望

尽管CE3D在3D场景编辑领域取得了进步,但仍有改进空间,如处理360度全景场景的挑战。

想要了解更多内容?

查看原文:ECCV`24 | 编辑能力无上限!北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式!
文章来源:
AI生成未来
扫码关注公众号