扫码阅读
手机扫码阅读
ECCV`24 | 编辑能力无上限!北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式!
64 2024-10-25
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
摘要
引言
传统3D场景编辑方法受限于固定的输入模式和有限的编辑能力,无法满足用户丰富的语言和编辑需求。为了解决这一问题,本文提出了一种新的编辑范式——CE3D(Chat-Edit-3D),利用大规模语言模型和解耦的2D编辑与3D重建实现灵活高效的场景编辑。
什么是CE3D?
CE3D是一种对话式3D场景编辑方法,通过解析用户文本输入,并调用视觉模型来编辑3D场景。通过Hash-Atlas映射网络,将3D编辑过程映射到2D图集空间,从而实现2D与3D过程的解耦。CE3D提供了强大的扩展性,支持多轮对话,并在多个方面优于传统方法。
方法
CE3D方法的核心是Hash-Atlas网络,它将3D视图映射到2D图集,为此设计了一种基于哈希结构的网络。通过特定训练和损失项,保证图集的自然性和准确性。在图集空间中,采用合并-拆分策略进行编辑,并利用ChatGPT及VQA模型辅助确定编辑区域。
对话系统
CE3D的对话系统考虑了场景文件的处理和用户查询的推理过程。场景文件以特定字符串代替实际文件名,通过前后端处理实现真实文件的管理。同时,ChatGPT被预先注入视觉工具信息,以有效处理用户输入。
编辑能力展示
CE3D展示了其在多轮对话中处理各种编辑请求的能力,如对象移除、风格迁移、深度图预测等,以及视觉问答和文本对话任务。
未来展望
尽管CE3D在3D场景编辑领域取得了进步,但仍有改进空间,如处理360度全景场景的挑战。
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
具身智能成败之关键!干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型!
点击下方卡片,关注“AI生成未来”>>后台回复“
图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)
点击下方卡片,关注“AI生成未来”>>后台回复“
8款AI写作神器,轻松创作高质量内容
随着AI技术的不断发展,AI生成文案平台也逐渐成为一
颠覆虚拟试衣行业标准!阿里发布OutfitAnyone:任意服装+任意人!
点击下方卡片,关注“AI生成未来”>>后台回复??
OpenAI 推出 GPT-4o,"魔法" 是否成真?
击下方卡片,关注“AI生成未来”>>后台回复“GAI
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线