当我用AI让兵马俑和腾格尔唱《野狼Disco》 - 阿里EMO模型上线首测
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
最近AI圈关注度高的模型EMO以其将静态照片转化为说话或唱歌的动态视频而备受瞩目。EMO模型展示了先进的动作模仿技术,能够精确模拟表情、嘴型、头部运动和眼神等,展现出色,甚至超越了DID、Heygen、奇妙元等去年流行的类似产品。
然而,阿里公司以往推出新技术产品,用户通常需要等待较长时间才能实际体验,如AnimateAnyone的发布与上线间隔。而EMO模型自发布已近两个月,按照以往经验,其上线时间应已临近。作者预测不出所料,阿里云的一位朋友已透露内测的消息。
在加入内测名单并稍作等待后,作者终于体验到了EMO。通过使用EMO,作者能够将静态图像转换成动态视频,效果惊人,动作幅度、面部表情甚至头发的微动都被精准捕捉。作者还尝试了多个有趣的demo,例如让兵马俑唱《野狼Disco》和腾格尔唱歌,而朋友们则用EMO为WayToAGI的一周年制作了特别视频。
EMO技术已被集成到通义千问APP中,用户通过发送"EMO"即可进行体验。当前版本仅支持使用APP内的音频模板,不支持上传个人音频。尽管如此,由于用户数量庞大,一段视频的生成等待时间可能超过一小时。
作者认为EMO的推出将大大丰富短视频生态,为对话、唱歌、表情包、经典梗等提供全新的内容形式。预期将来会出现基于照片说话的创意短视频。阿里公司在人工智能时代,其技术发布持续显示出其行业领先地位。作者期待阿里在AI时代重建其超级王朝。
最后,作者邀请读者点赞、关注和转发,以获取更多类似内容的及时推送。
想要了解更多内容?