速度超快的单图像生成3D目标方案,创新的One-2-3-45++来了!
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
本文介绍了一种名为One-2-3-45++的方法,能够快速将单个图像转换成具有细节纹理的3D网格。该方法在大约一分钟内完成转换,生成的3D网格与输入图像高度相似。One-2-3-45++利用了2D扩散模型的丰富先验知识和有限的3D数据,通过微调2D模型生成一致的多视图图像,然后使用3D扩散模型将这些图像转换成纹理网格。实验表明,本方法生成的3D资源质量高,多样性好,具有良好的鲁棒性和视觉质量。
引言
在计算机视觉中,从单个图像或文本提示生成3D形状是一个重要问题。尽管2D图像生成领域取得了进展,但3D领域的发展受限于3D训练数据的缺乏。一些工作通过利用2D先验模型的知识和生成能力,进行了3D表示的优化。然而,这些方法优化耗时且面临多种问题。One-2-3-45方法尝试通过2D扩散模型预测多视图图像,然后进行3D重建,但存在一致性问题。One-2-3-45++方法解决了这些问题,提高了生成速度和质量。
相关工作
3D生成领域取得了关注,但此前研究多依赖于有限的3D形状数据集。2D生成模型和视觉语言模型为3D生成提供了强大的先验。一些方法通过2D模型的先验优化3D表示,但存在优化时间长、多面问题和缺乏多样性的问题。Zero123等新研究展示了2D扩散模型生成新视图的潜力,但缺乏3D一致性。
方法
One-2-3-45++遵循传统3D内容创建的步骤,利用2D先验和3D数据。它通过微调2D扩散模型生成一致的多视图图像,然后使用3D扩散模型进行3D建模并优化纹理。这种方法通过多视图图像的一致性和精细的3D重建步骤,提高了生成网格的质量。
实验
One-2-3-45++与基于优化和前馈的方法进行了比较。在图像到3D方面,它在几何相似性和视觉质量方面超过了所有基线方法。用户研究中,它也得到了更高的偏好率。在文本到3D方面,One-2-3-45++在视觉质量上同样表现优异。
结论
One-2-3-45++是一种能够将单个图像迅速转换成高质量3D网格的方法,具有高度的保真度和精确的细粒度控制。未来,可以通过引入附加的引导条件进一步提高方法的鲁棒性和细节。
想要了解更多内容?