DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
本文介绍了Direct3D,这是一个能够从图像直接生成3D资产的原生3D生成模型。该模型利用Direct 3D Variational Auto-Encoder(D3D-VAE)和Direct 3D Diffusion Transformer(D3D-DiT)两个主要组件,有效编码和构建3D形状。与基于多视角扩散模型的方法不同,Direct3D可以扩展到in-the-wild输入图像,显著提升了生成质量和泛化能力。
介绍
3D形状生成领域取得了进展,但现有的3D数据集在形状数量和多样性上受限。为克服这些限制,本文提出了Direct3D,它结合了3D变分自编码器和diffusion transformer,直接从单视图图像生成3D形状。这种方法避免了依赖多视角图像的间接生成方式,提高了效率和几何细节的保留。
相关工作
3D生成任务中,神经3D表示的发展对提升生成效率和质量有重要影响。现有方法探索了多种3D表示形式和生成技术,但仍存在质量和效率的挑战。
方法
Direct3D采用显式三平面潜在表示,结合了变分自编码器和扩散转换器来捕捉3D空间的结构化信息和生成高质量3D形状。通过半连续表面采样和端到端优化,确保了解码的3D形状的几何细节。此外,设计了基于图像条件的直接3D Diffusion Transformer,集成了像素级和语义级图像信息,用于生成与输入图像一致的3D资产。
实验
通过实验验证了Direct3D在图像到3D和文本到3D任务上的性能,与现有方法相比,显示出优越的生成质量和泛化能力。此外,Direct3D还能生成高保真度的纹理网格。
结论
Direct3D作为一种新颖的3D生成方法,展示了其在生成单个图像的3D形状上的高效性和准确性。尽管存在生成大规模场景的局限性,但在3D内容创建领域设立了新标杆。
想要了解更多内容?