扫码阅读

手机扫码阅读

腾讯放大招了！AniPortrait开源上线！音频驱动逼真人像动画合成！人人都是歌手！

402 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：腾讯放大招了！AniPortrait开源上线！音频驱动逼真人像动画合成！人人都是歌手！

文章来源：

AI生成未来

扫码关注公众号

AniPortrait Article Summary

摘要

本文介绍了AniPortrait，一种创新的框架，旨在通过音频和参考图像生成高质量的动态人像。该方法分为两个阶段：首先，从音频提取3D面部表示并转换为2D面部关键点；其次，使用扩散模型结合运动模块将关键点序列转换为逼真的动画。AniPortrait在面部自然性、姿势多样性和视觉质量方面表现出色，并展现了在面部运动编辑和重现方面的应用潜力。

介绍

创建逼真的人像动画面临多方面挑战，如需精细协调嘴唇运动和面部表情等。现有方法常因生成器容量限制而难以制作高质量动画。AniPortrait框架利用扩散模型的进展，生成由音频和图像驱动的动画人像，包括精准捕捉音频中的微妙表情和头部运动，并将其转换为时间连贯的动态人像。

方法

AniPortrait包含两个模块：Audio2Lmk从音频中提取关键点序列；Lmk2Video利用这些序列生成高质量视频。该框架利用wav2vec提取音频特征，并使用transformer模型预测3D面部网格和头部姿势。通过透视投影转换为2D关键点，结合扩散模型和运动模块生成动画。实验中，改进了PoseGuider模块以增强嘴唇运动的精度，并引入参考图像关键点作为额外输入以提高动画质量。

实验

实验使用wav2vec2.0提取音频特征，MediaPipe进行3D网格和姿势标注，并利用内部数据集训练模型。Lmk2Video模块在VFHQ和CelebV-HQ数据集上训练，采用两步训练法，分别训练骨干网络及运动模块。结果表明，AniPortrait能生成高质量、逼真的动画，并允许对中间3D表示进行编辑，以创造不同的面部重现效果。

结论和未来工作

AniPortrait是一个基于扩散模型的人像动画框架，能够根据音频和参考图像生成具有自然头部运动的视频。目前，3D数据的高成本和诡异谷效应仍是挑战。未来计划探索直接从音频预测人像视频的方法，以期实现更佳的生成效果。

想要了解更多内容？

查看原文：腾讯放大招了！AniPortrait开源上线！音频驱动逼真人像动画合成！人人都是歌手！

文章来源：

AI生成未来

扫码关注公众号

相关推荐

AI浪花一朵朵

793

GPT ChatGPT 发布模型

最近关于 AI 新产品发布的信息量有点大，需要每个人慢慢消化，未来的工作、生活将与之息息相关。百度基于文心大

业务与数据的终极对决：如何让大数据成为企业的超能力？

239

在数字化转型的浪潮中，企业如同在茫茫数据海洋中航行的船只，而数据资产管理就是指引航向的罗盘。

人类还在怕鬼，AI已经开始害怕自己了。

309

AI 空间视频生成

“这一天，AI逐渐意识到，他再也走不出去了”

微博的AI评论机器人，实在是太抽象了...

479

抽象微博评论 AI

人类的抽象尚有迹可循，AI的抽象真是无序混乱

玩了100小时SD后，我整理了一份SD插件大全...

291

SD 插件视频 AI

后续我会着重笔墨来聊聊基于SD的AI视频制作~\x0d\x0a敬请期待~

72页PPT | 构建智慧城市的新基石：平安城市联网共享平台解决方案（附PPT方案下载）

370

数据下载平台治理

【关注公众号】：获更多精品资料下载！【新粉丝福利】：公众号后台发送关键字：“新粉丝福利”，自动获取100套共18个行业数字化方案及报告大礼包免费下载链接（2024.07月整理）。

AIGC最新技术及资讯

159 篇文章

浏览 69K

AI生成未来的其他文章

迈向统一扩散框架！Adobe提出RGB↔X：双重利好下游编辑任务 | SIGGRAPH'24

击下方卡片，关注“AI生成未来”>>后台回复“GAI

如何科学评价视频生成模型？AIGCBench：全面可扩展的视频生成任务基准来了！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

文本到3D肖像最强生成方案！DiffusionGAN3D: 3D GANs和Diffusion先验强强联合！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

即插即用，效率远超ControlNet！贾佳亚团队重磅开源ControlNeXt：超强图像视频生成方法

点击下方卡片，关注“AI生成未来”>>后台回复“

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

击下方卡片，关注“AI生成未来”>>后台回复“GAI

随机阅读

杂谈推理逻辑的严密性

案例：缺陷状态数据分析

对需求签字画押，有用吗？

一表搞定最小可行产品（MVP）与最小可市场化特性（MMF）

COSMIC规模度量案例集一：五个应用软件的需求规模度量

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线