超越DiffEdit、SDEdit等6大编辑模型！字节等提出人像服饰、卡通表情编辑新SOTA！

发布于 2024-10-25

276

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：超越DiffEdit、SDEdit等6大编辑模型！字节等提出人像服饰、卡通表情编辑新SOTA！

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章摘要

本文提出了一种新颖的多条件扩散模型（Multi-Conditioned Diffusion Model，MCDM），旨在改进人像编辑技术，特别是在保留身份和布局对齐方面。通过自动生成配对数据来训练模型，从而在编辑过程中保持真实性和高图像质量。

技术亮点

创新的数据生成技术，产生具有良好身份和布局对齐的配对数据。
多条件扩散模型，能够在编辑时保留关键特征，并提供精确的编辑mask。
在人像编辑方面取得了最先进的效果。

方法概述

研究团队设计了一个三阶段的基于扩散的图像编辑流程，首先通过自动化数据生成策略创建配对数据，然后训练MCDM从中学习编辑方向，最后在推理中使用编辑mask来指导保留主体细节。

配对数据生成

采用条件配对生成策略，确保输入图像和真实标签间的用户身份匹配和空间对齐。通过预训练的Stable Diffusion结合Composable Diffusion生成图像，并根据提供的身份信息和姿态信息来指导去噪过程。

多条件扩散模型训练

MCDM模型通过整合空间、文本和图像embeddings来学习编辑方向，并过滤掉不完美配对数据中的噪声。模型结构经过调整以适应不同条件的整合，通过dropout机制增强模型鲁棒性。

编辑mask引导

使用训练好的MCDM生成编辑mask，指示需要编辑的区域，从而在推理阶段提供精确的指导，保留主体特征的细节。

实验结果

在服装编辑和卡通表情编辑的实验中，模型展现了优于现有方法的性能，无论是在定量还是定性评估上。用户研究也显示，相比于基准方法，本文提出的pipeline获得了更高的用户满意度。

局限性和未来工作

目前的数据集生成策略依赖于Stable Diffusion的能力，未来工作将探索处理非配对数据的方法，并尝试减少所需的训练数据量。

结论

本文通过创新的配对数据生成策略和多条件扩散模型，有效地改进了人像编辑技术，特别是在保留身份和布局方面。实验结果证明了方法的优越性，为未来的研究方向提供了新的可能性。

AI生成未来

查看原文：超越DiffEdit、SDEdit等6大编辑模型！字节等提出人像服饰、卡通表情编辑新SOTA！

文章来源：

AI生成未来

扫码关注公众号

相关推荐

ChatGPT在GUI自动化测试领域的应用

1524

ChatGPT在GUI自动化测试领域的应用

AI当助教，吴恩达新课来了！

504

Python 学习 AI 人工智能

开创AI助教先例

一文详解视觉Transformer模型压缩和加速策略(量化/低秩近似/蒸馏/剪枝)

1130

点击下方卡片，关注“AI生成未来”>>后台回复“

深度好文：How to get started in C++！

372

Datawhale干货作者：zclll，推荐：卢雨畋，Datawhale成

字节全新发布豆包AI视频模型 - 再见了Sora，你的时代过去了。

视频 AI 豆包 PixelDance

真神降临。

AI绘图傻瓜指南 - 5分钟教你用ControlNET让妹子摆出你想要的pose

模型 ControlNET AI 生成

神级SD插件ControlNET的诞生，意味着抽卡游戏结束了，ControlNET补上了AIGC的最后一块拼图，自定义姿势，根据线稿、骨骼、其他图片直接生成全新的图，AI绘图正式进入自主可控的世代

AI生成未来

AIGC最新技术及资讯

207 篇文章

浏览 88.2K

AI生成未来的其他文章

具身智能又进一步！卡内基梅隆&Meta&苏黎世联邦实现虚拟人超灵活抓取

点击下方卡片，关注“AI生成未来”>>后台回复“

CVPR 2024 | 万物皆可移动！SceneDiffusion：可控场景生成新SOTA!（Meta AI&南洋理工）

点击下方卡片，关注“AI生成未来”>>后台回复“

ECCV`24 | 艺术文本和场景文本分割任务新SOTA 方法！华科&Adobe提出WAS！

点击下方卡片，关注“AI生成未来”>>后台回复“

关注【AI生成未来】公众号，回复“GAI”，免费获取??

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

击下方卡片，关注“AI生成未来”>>后台回复“GAI

随机阅读

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

超越DiffEdit、SDEdit等6大编辑模型！字节等提出人像服饰、卡通表情编辑新SOTA！

版权声明

文章摘要

技术亮点