我的发型我做主！上交联合Tiamat发布首个基于扩散的商业级发型移植框架：Stable-Hair！

389 2024-10-25

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：我的发型我做主！上交联合Tiamat发布首个基于扩散的商业级发型移植框架：Stable-Hair！

文章来源：

AI生成未来

扫码关注公众号

摘要

文章介绍了一个名为Stable-Hair的发型移植框架，该框架是基于扩散模型的，能够有效地将真实世界的发型移植到用户提供的面部图像上。相比于传统的基于GAN的方法，Stable-Hair展现了更高的保真度和鲁棒性。其核心包括Hair Extractor、Hair Cross-attention Layers和一种新的Latent ControlNet架构。此外，研究还开发了一个自动化数据生产pipeline，对框架的成功训练至关重要。

亮点直击

Stable-Hair是首个基于扩散的发型移植框架，展现出比基于GAN方法更好的保真度和鲁棒性。
Stable-Hair采用Hair Extractor和Hair Cross-attention Layers有效注入参考发型特征。
Latent ControlNet新架构用于保持源内容一致性，结合Bald Converter和Latent IdentityNet从像素空间到潜在空间促进发型移植。
自动化数据生产pipeline对于框架训练至关重要。

方法

Stable-Hair框架将发型移植过程分为两个阶段，首先使用Bald Converter生成光头图像，然后将参考发型移植到光头图像上。该框架包括Hair Extractor、Latent IdentityNet和Hair Cross-Attention Layers三个主要组件。Latent ControlNet通过将图像从像素空间编码到潜在空间来保持内容的一致性。头发提取器和头发交叉注意力层负责将参考发型高细节、高保真度地转移到目标图像上。

模型训练和推理

为了训练模型，创建了发型配对数据集，包括原始图像、参考图像和光头agent图像。模型训练遵循两个阶段，首先训练Bald Converter，然后训练模型的主要组件。训练使用多种增强技术，并采用类似Stable Diffusion的损失函数。在推理阶段，将用户提供的源图像和参考图像输入模型以指导扩散生成过程。

实验

通过与当前最先进方法的比较，评估了Stable-Hair在不同方面的性能。使用FID、SSIM、PSNR和IDS指标评估保真度、结构和内容相似性以及身份相似性。结果显示，Stable-Hair在多数指标上优于其他方法。用户研究进一步证实了Stable-Hair在转移准确性、无关属性保留和视觉自然度方面的优势。消融研究表明，Latent ControlNet在内容保持方面的重要性。