谷歌重磅发布CAT3D:一分钟搞定任意数量视图到3D场景重建
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
CAT3D是一种利用多视图扩散模型从任意数量的输入图像生成高度一致的3D场景新视图的方法,其生成的视图可以用于3D重建技术以创建实时渲染的3D representation。CAT3D在单图像和少视点3D场景创建方面优于现有方法,且能在短至一分钟内创建完整的3D场景。
介绍
3D内容需求上升,但创建高质量3D内容相对困难,需复杂工具和大量时间。最新摄影测量技术提高了从2D图像创建3D资产的可能性,但详细场景的创建仍需大量照片。CAT3D将这一需求简化,通过生成更多观测将未完全观测的3D创建问题转化为完全观测的3D重建环境。
相关工作
本文工作基于3D生成模型研究,特别是在未见区域中创建内容的技术。前人研究通过转移2D图像空间先验知识,利用视频和多视图扩散模型生成高度一致的新视图等。CAT3D结合多视图扩散模型与3D重建技术,实现高效且高质量的3D内容创建。
方法
CAT3D使用两步法:首先,通过多视点扩散模型生成一组新视点的图像;其次,将这些图像通过3D重建pipeline转换成3D representation。模型训练采用相机姿态embedding和3D自注意力,以及在训练期间随机选择条件视图数量的策略。生成新视点时,将目标视点聚类成小组并独立生成,同时根据生成视图与观察视图的近似程度对损失进行加权,以提高3D重建的精确性和鲁棒性。
实验
CAT3D在若干数据集上训练并在少视图3D重建和单图像到3D任务上评估,显示出定性和定量上的改进。消融实验表明,视频扩散架构结合3D自注意力和相机姿态的射线图embedding,能够生成足够一致的视图以恢复3D representation。
讨论与未来方向
尽管CAT3D在多个任务上取得了显著成果,但仍存在限制,如处理不同相机内参的场景、依赖基础文本到图像模型的表现能力以及生成大量样本时的视图一致性问题。未来的工作可以探索利用预训练的视频扩散模型,改善样本的一致性,以及自动确定相机轨迹以提高系统灵活性。
想要了解更多内容?