CVPR 2024 Highlight | 让SD乖乖学会文本生360°全景!PanFusion 强势来袭!
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
Cheng Zhang等人提出了一种名为PanFusion的新型双分支扩散模型,用于从文本提示生成360度全景图像。这项技术克服了文本到全景图像生成的两大障碍:数据稀缺和全景与透视图之间的领域差异。PanFusion结合了Stable Diffusion模型和全景分支,使用投影意识的交叉注意力机制最小化失真,实现了全景输出的定制化。
介绍
生成360度全景图像在计算机视觉中具有重要意义,但存在数据稀缺和领域变化等挑战。先前方法,如MVDiffusion,虽然促进了多视角一致性,但无法确保全局一致性,导致重复元素或语义不一致。
方法
PanFusion模型设计为在全景和透视领域同时操作。通过全景分支创建连贯的全景“画布”,视角分支专注于渲染细节丰富的透视视图。提出的等距透视投影注意力(EPPA)机制在两个分支之间传递指导信息,保持几何完整性。此外,引入了参数映射进行位置编码,增强空间意识,确保全景图的一致性。PanFusion还能通过房间布局等控制输入定制全景输出。
实验
实验使用Matterport3D数据集和BLIP-2文本描述,对比了PanFusion与MVDiffusion等先前方法。结果表明,PanFusion在全景图像的Fréchet Inception Distance (FID)、Inception Score (IS)、CLIP Score (CS)等指标上超越了基准方法,生成的场景更逼真,视觉一致性更好。此外,PanFusion还可根据房间布局生成全景图像,进一步展示了该模型的优越性。
结论
PanFusion以其双分支扩散架构和EPPA模块,解决了先前工作中的问题,生成了高质量的全景图像。尽管存在计算复杂性等限制,但PanFusion仍优于以往方法,为未来的应用提供了新的可能性。
想要了解更多内容?