腾讯放大招了!AniPortrait开源上线!音频驱动逼真人像动画合成!人人都是歌手!
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
本文介绍了AniPortrait,一种创新的框架,旨在通过音频和参考图像生成高质量的动态人像。该方法分为两个阶段:首先,从音频提取3D面部表示并转换为2D面部关键点;其次,使用扩散模型结合运动模块将关键点序列转换为逼真的动画。AniPortrait在面部自然性、姿势多样性和视觉质量方面表现出色,并展现了在面部运动编辑和重现方面的应用潜力。
介绍
创建逼真的人像动画面临多方面挑战,如需精细协调嘴唇运动和面部表情等。现有方法常因生成器容量限制而难以制作高质量动画。AniPortrait框架利用扩散模型的进展,生成由音频和图像驱动的动画人像,包括精准捕捉音频中的微妙表情和头部运动,并将其转换为时间连贯的动态人像。
方法
AniPortrait包含两个模块:Audio2Lmk从音频中提取关键点序列;Lmk2Video利用这些序列生成高质量视频。该框架利用wav2vec提取音频特征,并使用transformer模型预测3D面部网格和头部姿势。通过透视投影转换为2D关键点,结合扩散模型和运动模块生成动画。实验中,改进了PoseGuider模块以增强嘴唇运动的精度,并引入参考图像关键点作为额外输入以提高动画质量。
实验
实验使用wav2vec2.0提取音频特征,MediaPipe进行3D网格和姿势标注,并利用内部数据集训练模型。Lmk2Video模块在VFHQ和CelebV-HQ数据集上训练,采用两步训练法,分别训练骨干网络及运动模块。结果表明,AniPortrait能生成高质量、逼真的动画,并允许对中间3D表示进行编辑,以创造不同的面部重现效果。
结论和未来工作
AniPortrait是一个基于扩散模型的人像动画框架,能够根据音频和参考图像生成具有自然头部运动的视频。目前,3D数据的高成本和诡异谷效应仍是挑战。未来计划探索直接从音频预测人像视频的方法,以期实现更佳的生成效果。
想要了解更多内容?