CVPR 2024 Highlight | 让SD乖乖学会文本生360°全景！PanFusion 强势来袭！

发布于 2024-10-22

556

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：CVPR 2024 Highlight | 让SD乖乖学会文本生360°全景！PanFusion 强势来袭！

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

PanFusion摘要

摘要

Cheng Zhang等人提出了一种名为PanFusion的新型双分支扩散模型，用于从文本提示生成360度全景图像。这项技术克服了文本到全景图像生成的两大障碍：数据稀缺和全景与透视图之间的领域差异。PanFusion结合了Stable Diffusion模型和全景分支，使用投影意识的交叉注意力机制最小化失真，实现了全景输出的定制化。

介绍

生成360度全景图像在计算机视觉中具有重要意义，但存在数据稀缺和领域变化等挑战。先前方法，如MVDiffusion，虽然促进了多视角一致性，但无法确保全局一致性，导致重复元素或语义不一致。

方法

PanFusion模型设计为在全景和透视领域同时操作。通过全景分支创建连贯的全景“画布”，视角分支专注于渲染细节丰富的透视视图。提出的等距透视投影注意力（EPPA）机制在两个分支之间传递指导信息，保持几何完整性。此外，引入了参数映射进行位置编码，增强空间意识，确保全景图的一致性。PanFusion还能通过房间布局等控制输入定制全景输出。

实验

实验使用Matterport3D数据集和BLIP-2文本描述，对比了PanFusion与MVDiffusion等先前方法。结果表明，PanFusion在全景图像的Fréchet Inception Distance (FID)、Inception Score (IS)、CLIP Score (CS)等指标上超越了基准方法，生成的场景更逼真，视觉一致性更好。此外，PanFusion还可根据房间布局生成全景图像，进一步展示了该模型的优越性。

结论

PanFusion以其双分支扩散架构和EPPA模块，解决了先前工作中的问题，生成了高质量的全景图像。尽管存在计算复杂性等限制，但PanFusion仍优于以往方法，为未来的应用提供了新的可能性。

AI生成未来

查看原文：CVPR 2024 Highlight | 让SD乖乖学会文本生360°全景！PanFusion 强势来袭！

文章来源：

AI生成未来

扫码关注公众号

相关推荐

以2024.5.1广东梅大高速路面塌方事故为例，探讨风险管控策略

888

风险事故高速公路梅大

最大的风险是没有风险意识

自动驾驶汽车将产生哪些影响

502

汽车驾驶自动传感器

几个世纪以来，无人驾驶汽车一直引起人们的兴趣。?

揭秘！谷歌新星Gemini 1.5如何一眼识破AI视频？百万token上下文能力完胜GPT-4！

370

AI 模型视频上下文

当AI遇上AI，会擦出怎样的火花？近日，谷歌发布的新一代AI模型Gemini 1.5在科技圈掀起了一场风暴。

使用LangChain编写图检索查询，实现RAG

518

查询文本节点检索

介绍RAG技术。

图像生成/编辑应用落地必不可少！MuLAn：首个实例级RGBA分解数据集（华为诺亚）

436

点击下方卡片，关注“AI生成未来”>>后台回复“

图像生成里程碑！VAR:自回归模型首超Diffusion Transformer！（北大&字节）

639

点击下方卡片，关注“AI生成未来”>>后台回复“

AIGC最新技术及资讯

207 篇文章

浏览 88.4K

AI生成未来的其他文章

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

击下方卡片，关注“AI生成未来”>>后台回复“GAI

如何拯救LoRA初始化？LoRA-GA：性能显著提升+收敛速度更快！

点击下方卡片，关注“AI生成未来”>>后台回复“

AI论文润色平台一览，让你的论文更加流畅易懂！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

好用又免费的AI生图创作平台介绍

好用又免费的AI生图创作平台介绍

一键删除图片多余物体，AI轻松修饰图片

在图片编辑的世界里，我们时常需要与多余的物体“?

随机阅读

敏捷实践大全

杂谈推理逻辑的严密性

使用Gompertz模型预测非典的趋势

回归方程有效性的检查

如何近似计算回归方程的预测区间？

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线