超越DiffEdit、SDEdit等6大编辑模型!字节等提出人像服饰、卡通表情编辑新SOTA!
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章摘要
本文提出了一种新颖的多条件扩散模型(Multi-Conditioned Diffusion Model,MCDM),旨在改进人像编辑技术,特别是在保留身份和布局对齐方面。通过自动生成配对数据来训练模型,从而在编辑过程中保持真实性和高图像质量。
技术亮点
- 创新的数据生成技术,产生具有良好身份和布局对齐的配对数据。
- 多条件扩散模型,能够在编辑时保留关键特征,并提供精确的编辑mask。
- 在人像编辑方面取得了最先进的效果。
方法概述
研究团队设计了一个三阶段的基于扩散的图像编辑流程,首先通过自动化数据生成策略创建配对数据,然后训练MCDM从中学习编辑方向,最后在推理中使用编辑mask来指导保留主体细节。
配对数据生成
采用条件配对生成策略,确保输入图像和真实标签间的用户身份匹配和空间对齐。通过预训练的Stable Diffusion结合Composable Diffusion生成图像,并根据提供的身份信息和姿态信息来指导去噪过程。
多条件扩散模型训练
MCDM模型通过整合空间、文本和图像embeddings来学习编辑方向,并过滤掉不完美配对数据中的噪声。模型结构经过调整以适应不同条件的整合,通过dropout机制增强模型鲁棒性。
编辑mask引导
使用训练好的MCDM生成编辑mask,指示需要编辑的区域,从而在推理阶段提供精确的指导,保留主体特征的细节。
实验结果
在服装编辑和卡通表情编辑的实验中,模型展现了优于现有方法的性能,无论是在定量还是定性评估上。用户研究也显示,相比于基准方法,本文提出的pipeline获得了更高的用户满意度。
局限性和未来工作
目前的数据集生成策略依赖于Stable Diffusion的能力,未来工作将探索处理非配对数据的方法,并尝试减少所需的训练数据量。
结论
本文通过创新的配对数据生成策略和多条件扩散模型,有效地改进了人像编辑技术,特别是在保留身份和布局方面。实验结果证明了方法的优越性,为未来的研究方向提供了新的可能性。
想要了解更多内容?