扫码阅读
手机扫码阅读

我的发型我做主!上交联合Tiamat发布首个基于扩散的商业级发型移植框架:Stable-Hair!

36 2024-10-25

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

摘要

文章介绍了一个名为Stable-Hair的发型移植框架,该框架是基于扩散模型的,能够有效地将真实世界的发型移植到用户提供的面部图像上。相比于传统的基于GAN的方法,Stable-Hair展现了更高的保真度和鲁棒性。其核心包括Hair Extractor、Hair Cross-attention Layers和一种新的Latent ControlNet架构。此外,研究还开发了一个自动化数据生产pipeline,对框架的成功训练至关重要。

亮点直击

  • Stable-Hair是首个基于扩散的发型移植框架,展现出比基于GAN方法更好的保真度和鲁棒性。
  • Stable-Hair采用Hair Extractor和Hair Cross-attention Layers有效注入参考发型特征。
  • Latent ControlNet新架构用于保持源内容一致性,结合Bald Converter和Latent IdentityNet从像素空间到潜在空间促进发型移植。
  • 自动化数据生产pipeline对于框架训练至关重要。

方法

Stable-Hair框架将发型移植过程分为两个阶段,首先使用Bald Converter生成光头图像,然后将参考发型移植到光头图像上。该框架包括Hair Extractor、Latent IdentityNet和Hair Cross-Attention Layers三个主要组件。Latent ControlNet通过将图像从像素空间编码到潜在空间来保持内容的一致性。头发提取器和头发交叉注意力层负责将参考发型高细节、高保真度地转移到目标图像上。

模型训练和推理

为了训练模型,创建了发型配对数据集,包括原始图像、参考图像和光头agent图像。模型训练遵循两个阶段,首先训练Bald Converter,然后训练模型的主要组件。训练使用多种增强技术,并采用类似Stable Diffusion的损失函数。在推理阶段,将用户提供的源图像和参考图像输入模型以指导扩散生成过程。

实验

通过与当前最先进方法的比较,评估了Stable-Hair在不同方面的性能。使用FID、SSIM、PSNR和IDS指标评估保真度、结构和内容相似性以及身份相似性。结果显示,Stable-Hair在多数指标上优于其他方法。用户研究进一步证实了Stable-Hair在转移准确性、无关属性保留和视觉自然度方面的优势。消融研究表明,Latent ControlNet在内容保持方面的重要性。

结论

Stable-Hair设立了发型移植领域的新标准,通过稳定且细粒度的方法实现了真实世界发型的移植。两阶段流程,包括光头转换器、头发提取器、潜在身份网络和头发交叉注意力层,确保了发型移植的精确性和高保真度。

想要了解更多内容?