扫码阅读
手机扫码阅读

单图创造虚拟世界只需10秒!斯坦福&MIT联合发布WonderWorld:高质量交互生成

513 2024-10-26

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:单图创造虚拟世界只需10秒!斯坦福&MIT联合发布WonderWorld:高质量交互生成
文章来源:
AI生成未来
扫码关注公众号

文章摘要

本文介绍了WonderWorld框架,它允许用户基于单张输入图像和用户指定的文本交互式地生成和探索三维场景。利用快速高斯曲面(Fast Gaussian Surfels)和引导扩散的深度估计方法,WonderWorld在减少计算时间的同时,能够生成几何一致的场景,并在单个A6000 GPU上实现不到10秒的场景生成时间,展示了在虚拟现实、游戏和创意设计中的应用潜力。

介绍

尽管3D场景生成的视觉质量有所提升,但现有方法通常离线运行,生成一个场景需要较长时间,不利于交互性。本文识别出场景生成速度和几何失真是交互性的主要障碍,并提出了WonderWorld框架来解决这些问题。

实现

WonderWorld框架从单一图像生成3D场景,并通过外推现有场景逐步扩展。利用快速高斯表面、基于几何的初始化及分层场景生成策略加快了场景生成速度。同时,引入了引导扩散的深度估计方法解决几何失真问题。

快速高斯面

介绍了快速高斯面(FGS)来表示生成的3D场景,通过基于几何的初始化和优化过程简化提高了优化速度。

分层场景生成

通过分层场景生成策略填补了生成场景中的遮挡空洞,采用深度引导的层分解过程来生成内容填充这些区域。

引导深度扩散

为了生成连贯的无限世界,提出了引导深度扩散技术,利用现有内容的深度图作为引导,通过扩散模型生成新场景的几何形状。

结果

尽管没有可比较的基准,WonderWorld在生成大规模3D场景的质量上表现出色。实现细节包括使用现有的修复模型和分割方法。生成速度的提升使得该框架可以实现快速的场景生成。

结论

WonderWorld通过技术创新实现了交互式3D场景生成的突破,尽管存在场景密度较低和处理细节对象困难的限制,但未来的研究方向是结合WonderWorld与其他模型进一步提升场景生成的质量。

想要了解更多内容?

查看原文:单图创造虚拟世界只需10秒!斯坦福&MIT联合发布WonderWorld:高质量交互生成
文章来源:
AI生成未来
扫码关注公众号