扫码阅读

手机扫码阅读

生动灵活，MegActor重磅升级！旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法！

174 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：生动灵活，MegActor重磅升级！旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法！

文章来源：

AI生成未来

扫码关注公众号

文章摘要

本文介绍了MegActor-Σ，一种新颖的混合模态扩散Transformer（DiT），它有效整合音频和视觉控制信号来生成人像动画。与以往基于UNet的方法不同，MegActor-Σ首次在DiT框架下实现了这种整合，并提出了"模态解耦控制"训练策略，解决了视觉泄露问题，平衡了两种模态之间的控制强度。此外，研究者们还开发了一套数据集质量评估指标，筛选并提供了一个100小时的高质量多模态人像动画数据集供开源研究使用。实验结果显示，这种方法在生成生动人像动画方面表现优越。

技术细节

MegActor-Σ利用去噪Transformer结合参考Transformer提取视觉特征，并通过Driven Encoder和Whisper集成提取音频特征。它通过时间模块增强了生成帧之间的时间一致性，并采用了新的训练策略以及音频注意力层来平衡不同模态的控制信号。此外，MegActor-Σ的训练使用了经过筛选的高质量公共数据集。

实验结果

在HDTF和CCv2数据集上的实验表明，MegActor-Σ在多个评估指标上性能优越，与现有的人像动画方法相比，提供了更真实的图像和更佳的唇音同步。消融研究进一步验证了多模态控制信号的效果。

结论与影响

通过解决音频和视觉模态之间的控制强度平衡问题，MegActor-Σ实现了更加灵活和细致的人像动画控制。这项工作的开源数据集和方法有望激发社区的兴趣，并推动相关领域的研究与发展。文章还鼓励对这项工作感兴趣的实习生提交简历至指定邮箱。

想要了解更多内容？

查看原文：生动灵活，MegActor重磅升级！旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法！

文章来源：

AI生成未来

扫码关注公众号

相关推荐

【AI人工智能系列】1.环境搭建：阿里云服务器centos安装anaconda

389

Anaconda Conda Python Miniconda

Conda、Miniconda、Anaconda都是 Python 中非常常用的包管理器，它们各自有着不同的特点和优势，可以根据不同的需求来选择使用。

这么多AI大模型，就没一个能算清今年这破调休的？

285

调休 AI 放假数学题

今年中秋国庆的调休假期，连AI都算懵逼了。

RunwayGen2上线全新控制功能「运动笔刷」- 一笔刷万物

271

运动 AI 笔刷视频

AI一天，人间一年。

京东x触手AI首届AIGC创作大赛启动，特邀阁下来领12万奖金

313

AI 触手参赛绘图

京东联手洛可可x洛客x触手AI，在10月17日～11月6日，正式开启京东首届AIGC创意大赛。

突破性进展！只需单张参考图，完美仿写各种手写内容！华南理工等开源One-DM

466

点击下方卡片，关注“AI生成未来”作者：Gang Dai等 ??

PhotoMaker：高效个性化的文本生成逼真人物照片方法

358

作者：Zhen Li等解读：AIGCer近期在文本到图像生成领??

AIGC最新技术及资讯

159 篇文章

浏览 71.2K

AI生成未来的其他文章

强强联合！DiffusionGPT : LLM驱动的统一文本到图像生成系统

关注【AI生成未来】公众号，回复“GAI”，免费获取??

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

击下方卡片，关注“AI生成未来”>>后台回复“GAI

谷歌重磅发布CAT3D：一分钟搞定任意数量视图到3D场景重建

点击下方卡片，关注“AI生成未来”>>后台回复“

2024年大模型LLM还有哪些可研究的方向？听听大佬怎么说

点击下方卡片，关注“AI生成未来”>>关注【AI生?

低比特量化的LLAMA3模型有多好？ | 香港大学&北航最新研究发布

击下方卡片，关注“AI生成未来”>>后台回复“GAI

随机阅读

敏捷实践大全

和任老师聊聊质量工作

杂谈推理逻辑的严密性

聊聊故事点背后的故事

解读微信团队的七个价值观

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线