扫码阅读
手机扫码阅读
ECCV`24 | 编辑能力无上限!北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式!
106 2024-10-25
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
摘要
引言
传统3D场景编辑方法受限于固定的输入模式和有限的编辑能力,无法满足用户丰富的语言和编辑需求。为了解决这一问题,本文提出了一种新的编辑范式——CE3D(Chat-Edit-3D),利用大规模语言模型和解耦的2D编辑与3D重建实现灵活高效的场景编辑。
什么是CE3D?
CE3D是一种对话式3D场景编辑方法,通过解析用户文本输入,并调用视觉模型来编辑3D场景。通过Hash-Atlas映射网络,将3D编辑过程映射到2D图集空间,从而实现2D与3D过程的解耦。CE3D提供了强大的扩展性,支持多轮对话,并在多个方面优于传统方法。
方法
CE3D方法的核心是Hash-Atlas网络,它将3D视图映射到2D图集,为此设计了一种基于哈希结构的网络。通过特定训练和损失项,保证图集的自然性和准确性。在图集空间中,采用合并-拆分策略进行编辑,并利用ChatGPT及VQA模型辅助确定编辑区域。
对话系统
CE3D的对话系统考虑了场景文件的处理和用户查询的推理过程。场景文件以特定字符串代替实际文件名,通过前后端处理实现真实文件的管理。同时,ChatGPT被预先注入视觉工具信息,以有效处理用户输入。
编辑能力展示
CE3D展示了其在多轮对话中处理各种编辑请求的能力,如对象移除、风格迁移、深度图预测等,以及视觉问答和文本对话任务。
未来展望
尽管CE3D在3D场景编辑领域取得了进步,但仍有改进空间,如处理360度全景场景的挑战。
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
绝地归来!英伟达等提出JeDi:无需微调,个性化图像生成新SOTA![CVPR 2024]
点击下方卡片,关注“AI生成未来”>>后台回复“
长视频生成速度提升100倍!新加坡国立提出Video-Infinity:分布式长视频生成
点击下方卡片,关注“AI生成未来”>>后台回复“
如何科学评价视频生成模型?AIGCBench:全面可扩展的视频生成任务基准来了!
关注【AI生成未来】公众号,回复“GAI”,免费获取??
CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:实时4K分辨率4D视图合成
点击下方卡片,关注“AI生成未来”>>后台回复“
扩散模型中进行条件插值?AID:无需训练,保证一致、平滑和保真度(新加坡国立&南洋理工)
点击下方卡片,关注“AI生成未来”>>后台回复“
加入社区微信群
与行业大咖零距离交流学习
SAFe6.0与CMMI3.0映射
白皮书上线
白皮书上线