单图创造虚拟世界只需10秒!斯坦福&MIT联合发布WonderWorld:高质量交互生成
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章摘要
本文介绍了一种新颖的框架“WonderWorld”,该框架通过交互式三维场景外推,使用户能够基于单张输入图像和文本指令,快速探索和塑造虚拟环境。此框架能在单个A6000 GPU上不到10秒内生成几何一致的三维场景,实时支持用户交互。
介绍
尽管3D场景生成的视觉质量得到了改进,现有方法通常是离线运行的,需要较长时间生成场景。针对交互式场景生成的需求,本文提出“WonderWorld”框架,解决了生成速度慢和场景边界几何失真的问题。
实现
“WonderWorld”使用快速高斯表面(Fast Gaussian Surfels)和分层场景生成策略加速场景生成,同时引入引导扩散的深度估计方法以确保几何一致性。本框架能处理遮挡空洞并支持快速渲染,为外推场景提供几何对齐。
快速高斯面
快速高斯面(FGS)作为3D场景的表示形式,通过几何原理初始化,显著减少了优化时间,并通过特定的比例初始化减轻了混叠孔洞问题。
分层场景生成
通过分层场景生成策略处理透视洞问题,通过深度引导的层分解解析几何层结构,去除遮挡内容并生成填充内容。
引导深度扩散
利用扩散模型作为基础,本文提出引导式深度扩散技术,以引导信号的形式利用现有深度图,生成新场景的几何形状,解决几何扭曲问题。
结果
“WonderWorld”生成的大规模3D场景具有连贯性,且允许用户指定不同风格。与现有方法相比,大幅减少了生成时间,提高了交互性。
实现细节
使用了Stable Diffusion修复模型和OneFormer分割模型,并利用深度扩散模型进行法线估计。引导深度扩散中,设置引导权重以获得平滑外推。
定性结果
“WonderWorld”与基线方法相比,在生成连贯的大规模3D场景方面有显著优势,支持多样化结果和风格多变的场景生成。
生成速度
本文重点关注3D场景生成的交互性,报告了生成时间成本,并通过优化策略和策略实现快速场景生成。
结论
“WonderWorld”作为交互式3D场景生成系统,在生成时间和场景多样性上实现了技术突破,尽管还存在一些局限性,如场景密度较低和处理细节对象的困难,但展示了强大的潜力和未来的改进方向。
想要了解更多内容?
白皮书上线