扫码阅读

手机扫码阅读

CVPR 2024 | 万物皆可移动！SceneDiffusion：可控场景生成新SOTA!（Meta AI&南洋理工）

497 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：CVPR 2024 | 万物皆可移动！SceneDiffusion：可控场景生成新SOTA!（Meta AI&南洋理工）

文章来源：

AI生成未来

扫码关注公众号

文章摘要

概括摘要

主要内容：Jiawei Ren等人提出了名为SceneDiffusion的框架，目的是在扩散采样过程中优化分层场景表示，允许使用预训练的文本到图像(T2I)扩散模型进行可控场景生成。本文的关键洞察是通过联合去噪不同空间布局的场景渲染，可以实现空间解耦。生成的场景支持多种空间编辑操作，包括移动、调整大小、克隆和分层外观编辑，还可根据参考图像生成场景，实现对象移动。SceneDiffusion无需训练就能与通用T2I扩散模型兼容，响应时间不到一秒。

介绍

在GAN时代之后，扩散模型在T2I生成任务上展现了优异性能，但缺乏mid-level控制。为解决这个问题，本文提出SceneDiffusion框架，通过在扩散采样过程中优化分层场景表示来实现空间内容的解耦，支持多样的空间编辑操作，无需针对配对数据进行微调。

相关工作

SceneDiffusion的创新点在于结合了可控场景生成和基于扩散的图像编辑，与现有方法相比，更加灵活和高效。

方法

SceneDiffusion框架概述了如何使用扩散模型获得空间解耦的分层场景，并实现对自然场景图像的空间编辑。框架包括扩散模型、局部条件扩散、分层场景表示以及使用SceneDiffusion生成场景的方法。

实验

本文进行了定性和定量评估，建立了一个包含1,000个文本提示和相关图像的数据集，评估了SceneDiffusion在可控场景生成和图像编辑任务的性能，表现出较先进水平。

结论

SceneDiffusion优化了分层场景表示，实现了广泛的空间编辑操作，且响应迅速。尽管存在一些限制，如对象外观与mask的不紧密匹配和高内存需求，但在生成质量、一致性和速度方面均优于基线。

想要了解更多内容？

查看原文：CVPR 2024 | 万物皆可移动！SceneDiffusion：可控场景生成新SOTA!（Meta AI&南洋理工）

文章来源：

AI生成未来

扫码关注公众号

相关推荐

听说了吗？AI助阵，一年读完200本书不再是梦想！秘诀全都在这里啦！

523

读书本书项目管理 AI

AI阅读，让我们多出价值！

一文看懂苹果2024秋季发布会：毫无创新的公式化2小时。

382

iPhone 苹果 AI 。。。

不是史诗级更新，就是“史”。

CVPR`24 | 真假难辨！CosmicMan：超实用的人物生成基础模型来了！(上海AI Lab）

473

点击下方卡片，关注“AI生成未来”>>后台回复“

人工智能在供应链应用中面临的挑战

506

随着人工智能技术的不断发展，未来几年供应链领域将迎来一系列技术进步。

31页PPT | 电子政务数据共享平台解决方案（附方案下载方式）

539

数据下载平台星球

【关注公众号】：获更多精品资料下载！【新粉丝福利】：公众号后台发送关键字：“新粉丝福利”，自动获取100套共18个行业数字化方案及报告大礼包免费下载链接（2024.08月整理）。

Sora会改变世界？

217

世界 AI 数据现实

至少在可预见的未来，喂给AI的数据都是由人提供的，而人类能够抓取的数据取决于我们对现实世界的观察角度。

AIGC最新技术及资讯

161 篇文章

浏览 80.7K

AI生成未来的其他文章

SIGGRAPH`24 | 毫米级接近真实动作生成！LGTM：文本驱动！(深大&快手&字节)

击下方卡片，关注“AI生成未来”>>后台回复“GAI

效果超越ControlNet+IP-Adapter和FreeControl！Ctrl-X：可控文生图新框架（加州大学&英伟达）

点击下方卡片，关注“AI生成未来”>>后台回复“

突破性进展！只需单张参考图，完美仿写各种手写内容！华南理工等开源One-DM

点击下方卡片，关注“AI生成未来”作者：Gang Dai等 ??

无性能损失！让SAM加速近50倍！EfficientViT-SAM来了！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

图片去除背景，无水印下载的六大免费平台！

随着人工智能技术的不断进步，越来越多的应用场景?

随机阅读

三个团队的站立会议旁观笔记

使用Gompertz模型预测非典的趋势

对需求签字画押，有用吗？

如何近似计算回归方程的预测区间？

COSMIC规模度量案例集一：五个应用软件的需求规模度量

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线