CVPR 2024 | 万物皆可移动!SceneDiffusion:可控场景生成新SOTA!(Meta AI&南洋理工)
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
概括摘要
主要内容:Jiawei Ren等人提出了名为SceneDiffusion的框架,目的是在扩散采样过程中优化分层场景表示,允许使用预训练的文本到图像(T2I)扩散模型进行可控场景生成。本文的关键洞察是通过联合去噪不同空间布局的场景渲染,可以实现空间解耦。生成的场景支持多种空间编辑操作,包括移动、调整大小、克隆和分层外观编辑,还可根据参考图像生成场景,实现对象移动。SceneDiffusion无需训练就能与通用T2I扩散模型兼容,响应时间不到一秒。
介绍
在GAN时代之后,扩散模型在T2I生成任务上展现了优异性能,但缺乏mid-level控制。为解决这个问题,本文提出SceneDiffusion框架,通过在扩散采样过程中优化分层场景表示来实现空间内容的解耦,支持多样的空间编辑操作,无需针对配对数据进行微调。
相关工作
SceneDiffusion的创新点在于结合了可控场景生成和基于扩散的图像编辑,与现有方法相比,更加灵活和高效。
方法
SceneDiffusion框架概述了如何使用扩散模型获得空间解耦的分层场景,并实现对自然场景图像的空间编辑。框架包括扩散模型、局部条件扩散、分层场景表示以及使用SceneDiffusion生成场景的方法。
实验
本文进行了定性和定量评估,建立了一个包含1,000个文本提示和相关图像的数据集,评估了SceneDiffusion在可控场景生成和图像编辑任务的性能,表现出较先进水平。
结论
SceneDiffusion优化了分层场景表示,实现了广泛的空间编辑操作,且响应迅速。尽管存在一些限制,如对象外观与mask的不紧密匹配和高内存需求,但在生成质量、一致性和速度方面均优于基线。
想要了解更多内容?