扫码阅读
手机扫码阅读
用SVC做特定人物AI配音 - 你奶奶都会的AI声音教程

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

数字生命卡兹克
扫码关注公众号
《流浪地球》二创配音技术分享
作者分享了如何使用AI技术复现李雪健老师的声音进行《流浪地球》的二创配音。AI声音技术已经大幅提升,变得简单易用,可用于影视、音乐和配音等领域。技术过程主要包括三步:准备声音数据集、在云上训练模型和使用AI声音。
一. 准备数据集
要制作声音数据集,首先找到5~10分钟的干净人声音频,作者是从李雪健老师的作品中提取。使用剪辑软件分离声音并导出为WAV格式。如果数据量不足,可以使用5分钟的迷你数据集。建议使用UVR5工具去除伴奏和混响,最后使用Audio Slicer工具将音频剪裁为10秒小段。
二. 在云上训练模型
使用AutoDL平台进行模型训练,注册并充值后租用实例并选择合适的镜像。按照教程操作,上传数据集并设置模型的参数。训练开始后,关注步数提示和loss参数,每训练800步会保存一个模型,一般3000步左右的模型可以听听效果。
三. 在云上使用AI声音
模型训练完毕后,下载到本地或在云端进行推理使用。通过WebUI上传自己的音频,并选择模型和F0预测器进行音频转换。得益于强大的算力,转换过程快速且不易出错,可以立即体验转换后的声音。
作者感慨AI技术的飞速发展和个人学习的艰辛。通过分享教程和创作,作者希望能够帮助更多人了解并进入AI的世界,完成自己作为“AI世界门童”的使命,为自己找到了价值所在。
想要了解更多内容?

数字生命卡兹克
扫码关注公众号
数字生命卡兹克的其他文章
花7000块实测Claude2.1 - 200K Token的超大杯效果究竟怎么样?
就三字:失望
文心一言和ChatGLM,连夜向全社会开放,究竟发生了什么?
半夜本来准备睡觉了。一篇文章直接让我的AI群全部沸腾了。文心一言直接全面开放。之前虽然部分人能用,但是依然是
Google发布Gemma 2 2B和Gemini 1.5 Pro,FLUX开源图像的新标杆,这就是这周的AI大新闻。
7.30~8.04,又是刺激的一周。这周的AI大事件,就都在这里啦。
被AI改造后的meme梗图,已经变成了我看不懂的模样。
AI玩梗的能力,已经开始超越绝大多数人类了
一手体验200万字上下文的Kimi - 月的暗面,终于有了光
当你用习惯200万字以后,相信我,你再也不想回到过去的时代
加入社区微信群
与行业大咖零距离交流学习


PMO实践白皮书
白皮书上线
白皮书上线