扫码阅读

手机扫码阅读

用SVC做特定人物AI配音 - 你奶奶都会的AI声音教程

403 2024-09-29

模型 AI 10 音频数据集

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：用SVC做特定人物AI配音 - 你奶奶都会的AI声音教程

文章来源：

数字生命卡兹克

扫码关注公众号

文章摘要

《流浪地球》二创配音技术分享

作者分享了如何使用AI技术复现李雪健老师的声音进行《流浪地球》的二创配音。AI声音技术已经大幅提升，变得简单易用，可用于影视、音乐和配音等领域。技术过程主要包括三步：准备声音数据集、在云上训练模型和使用AI声音。

一. 准备数据集

要制作声音数据集，首先找到5~10分钟的干净人声音频，作者是从李雪健老师的作品中提取。使用剪辑软件分离声音并导出为WAV格式。如果数据量不足，可以使用5分钟的迷你数据集。建议使用UVR5工具去除伴奏和混响，最后使用Audio Slicer工具将音频剪裁为10秒小段。

二. 在云上训练模型

使用AutoDL平台进行模型训练，注册并充值后租用实例并选择合适的镜像。按照教程操作，上传数据集并设置模型的参数。训练开始后，关注步数提示和loss参数，每训练800步会保存一个模型，一般3000步左右的模型可以听听效果。

三. 在云上使用AI声音

模型训练完毕后，下载到本地或在云端进行推理使用。通过WebUI上传自己的音频，并选择模型和F0预测器进行音频转换。得益于强大的算力，转换过程快速且不易出错，可以立即体验转换后的声音。

作者感慨AI技术的飞速发展和个人学习的艰辛。通过分享教程和创作，作者希望能够帮助更多人了解并进入AI的世界，完成自己作为“AI世界门童”的使命，为自己找到了价值所在。

想要了解更多内容？

查看原文：用SVC做特定人物AI配音 - 你奶奶都会的AI声音教程

文章来源：

数字生命卡兹克

扫码关注公众号

相关推荐

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

模型世界生成视频

击下方卡片，关注“AI生成未来”>>后台回复“GAI

大语言模型的前世今生：万字长文完整梳理所有里程碑式大语言模型（LLMs）

模型训练语言 GPT

点击下方卡片，关注“AI生成未来”>>后台回复“

理解 DDD：编程中的模型思维

506

模型业务计算机逻辑

业务设计上往往没有建立起特定的领域模型，这是我们架构腐化和软件开发困难的关键原因。**业务领域建立好的模型，并指导代码实践，这就是 ”编程思维“。** DDD 领域驱动设计就是解决这部分问题，与其叫领域驱动设计，不如叫做模型驱动设计。

具身智能成败之关键！干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型！

模型语言视觉机器人

点击下方卡片，关注“AI生成未来”>>后台回复“

LLMOps快速入门，轻松开发部署大语言模型

591

模型 LLM LLMOps 提示

深入介绍LLMOps。

AIGC｜万字长文！带你了解AI大模型技术演进

2513

模型神经网络 AI

大模型时代来临，我们站上了风口浪尖→

数字生命卡兹克

努力分享一些很新、很酷的AI干货。

197 篇文章

浏览 97K

数字生命卡兹克的其他文章

花7000块实测Claude2.1 - 200K Token的超大杯效果究竟怎么样？

就三字：失望

文心一言和ChatGLM，连夜向全社会开放，究竟发生了什么？

半夜本来准备睡觉了。一篇文章直接让我的AI群全部沸腾了。文心一言直接全面开放。之前虽然部分人能用，但是依然是

Google发布Gemma 2 2B和Gemini 1.5 Pro，FLUX开源图像的新标杆，这就是这周的AI大新闻。

7.30~8.04，又是刺激的一周。这周的AI大事件，就都在这里啦。

被AI改造后的meme梗图，已经变成了我看不懂的模样。

AI玩梗的能力，已经开始超越绝大多数人类了

一手体验200万字上下文的Kimi - 月的暗面，终于有了光

当你用习惯200万字以后，相信我，你再也不想回到过去的时代

随机阅读

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

用SVC做特定人物AI配音 - 你奶奶都会的AI声音教程