扫码阅读
手机扫码阅读

生动灵活,MegActor重磅升级!旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法!

81 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

文章摘要

本文介绍了MegActor-Σ,一种新颖的混合模态扩散Transformer(DiT),它有效整合音频和视觉控制信号来生成人像动画。与以往基于UNet的方法不同,MegActor-Σ首次在DiT框架下实现了这种整合,并提出了"模态解耦控制"训练策略,解决了视觉泄露问题,平衡了两种模态之间的控制强度。此外,研究者们还开发了一套数据集质量评估指标,筛选并提供了一个100小时的高质量多模态人像动画数据集供开源研究使用。实验结果显示,这种方法在生成生动人像动画方面表现优越。

技术细节

MegActor-Σ利用去噪Transformer结合参考Transformer提取视觉特征,并通过Driven Encoder和Whisper集成提取音频特征。它通过时间模块增强了生成帧之间的时间一致性,并采用了新的训练策略以及音频注意力层来平衡不同模态的控制信号。此外,MegActor-Σ的训练使用了经过筛选的高质量公共数据集。

实验结果

在HDTF和CCv2数据集上的实验表明,MegActor-Σ在多个评估指标上性能优越,与现有的人像动画方法相比,提供了更真实的图像和更佳的唇音同步。消融研究进一步验证了多模态控制信号的效果。

结论与影响

通过解决音频和视觉模态之间的控制强度平衡问题,MegActor-Σ实现了更加灵活和细致的人像动画控制。这项工作的开源数据集和方法有望激发社区的兴趣,并推动相关领域的研究与发展。文章还鼓励对这项工作感兴趣的实习生提交简历至指定邮箱。

想要了解更多内容?