扫码阅读
手机扫码阅读

UBCFashion和TikTok新SOTA!复旦和腾讯优图发布端到端人像动画生成器VividPose!

64 2024-10-26

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:UBCFashion和TikTok新SOTA!复旦和腾讯优图发布端到端人像动画生成器VividPose!
文章来源:
AI生成未来
扫码关注公众号

摘要

本文介绍了一种名为VividPose的新型人像动画生成方法,它是基于Stable Video Diffusion (SVD)的端到端pipeline。VividPose旨在解决之前方法中存在的外观退化和时间不一致问题。它通过集成额外的面部信息到身份感知外观控制器中,从而在不同姿势下保持对人物身份的高度保真度。同时,引入了一种几何感知姿势控制器,这使得生成的视频能够准确对齐姿势和形状,并适应多样的体型和手部动作。在UBCFashion和TikTok数据集上的实验表明,VividPose实现了最先进的性能,并且在提出的数据集上展示了出色的泛化能力。

方法概述

VividPose采用了SVD,这是一种先进的视频生成模型,能够创建高分辨率、时间一致的视频。SVD引入了3D卷积和时间注意力层,并使用了连续噪声尺度σ来实现更灵活高效的采样。此外,VividPose利用SMPL-X模型来处理人体姿势和形状的表示,通过可微渲染过程将3D人体模型投影到2D图像平面,确保生成的视频在体型上与参考图像准确对齐,同时跟随驱动视频的动态姿势。

关键组件

身份感知的外观控制器通过使用ArcFace提取面部特征并通过交叉注意力层将其注入到UNet中,有效地保留了关键面部特征。几何感知姿势控制器结合了来自SMPL-X的渲染图和骨架图,允许对动态姿势和复杂手势进行精确建模,保持了生成视频的体型和运动的准确性。

实验结果

VividPose在UBCFashion和TikTok数据集上与几种最先进的方法进行了比较,结果表明VividPose在多个评估指标上取得了最佳性能,尤其在视频保真度方面表现突出。此外,VividPose在新收集的数据集上表现出了良好的泛化能力,证实了其在实际应用中的稳健性。

结论

VividPose通过其创新的身份感知外观控制器和几何感知姿势控制器,为人体图像动画提供了一个新的稳健且高效的解决方案。大量实验验证了其在时间一致性、视觉保真度和泛化能力方面的优越性,使其成为一个有前景的人体动画生成工具。

想要了解更多内容?

查看原文:UBCFashion和TikTok新SOTA!复旦和腾讯优图发布端到端人像动画生成器VividPose!
文章来源:
AI生成未来
扫码关注公众号