CVPR 2024 | 感知模型+生成模型=SOTA!清华最新提出协同框架DetDiffusion
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
概要
本文提出了DetDiffusion,一个新颖的感知生成框架,它结合了生成模型和感知模型,以增强数据生成质量和下游任务性能。利用扩散模型生成高质量图像,DetDiffusion通过感知损失和感知属性定制数据,显著提升目标检测器的性能,创造了新的SOTA。
介绍
感知模型需要大量标注数据集,而DetDiffusion首次结合生成和感知模型,提升数据生成效果。DetDiffusion通过感知损失和感知属性提高特定感知模型性能,实验结果显示其在目标检测任务上的优越性能。
相关工作
扩散模型作为一种生成模型,通过反向去噪过程学习生成高质量图像。布局到图像(L2I)生成关注将图形布局转换为逼真图像。生成模型与感知模型之间的协同作用尚未充分探索,DetDiffusion正是探索这种作用。
方法
DetDiffusion结合潜在扩散模型(LDM)和感知模型,通过Perception-Aware属性(P.A. Attr)和损失(P.A. loss)改进生成质量并增强下游任务。研究引入了Perception-Aware属性,作为条件输入,用于增强检测模型性能。同时,提出了Perception-Aware损失,利用多尺度特征图进行更细致的图像重构。
实验
实验在COCO-Thing-Stuff数据集上进行,旨在评估生成图像的保真度和下游任务的可训练性。DetDiffusion生成图像对目标检测器的训练带来显著提升,特别是在长尾类别方面。消融研究表明加入P.A. Attr和P.A. loss对性能有显著提升。
结论
DetDiffusion通过整合生成模型和感知模型,成功地提高了图像的生成质量和可训练性,为下游任务带来了显著的性能提升。
想要了解更多内容?