扫码阅读

手机扫码阅读

AI唱歌之终极喂饭教程 - SVC的极限就在这了

701 2024-09-29

模型人声数据集 AI SVC

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：AI唱歌之终极喂饭教程 - SVC的极限就在这了

文章来源：

数字生命卡兹克

扫码关注公众号

最近作者对AI声音技术产生了兴趣，特别是在制作AI唱歌方面。为此，他开发了一个中文TTS项目BertVits2，并在此基础上继续研究SVC（Singing Voice Conversion）技术。本文旨在为读者提供一个详细的SVC教程，帮助他们制作出高品质的AI唱歌效果。

一. 数据集的准备与处理

在AI声音制作中，数据集的质量对最终效果至关重要。作者强调，不应混用普通话和唱歌数据，建议单独录制1小时的干声数据。录音环境应安静，使用质量较好的收音设备。录制完成后，建议通过剪映软件进行音频优化，最后使用Audio Slicer工具切割数据集。

二. 主模型的训练

准备好数据集后，作者指导读者在AutoDL平台上租用V100 32G显卡，并使用特定的社区镜像进行模型训练。训练过程中，重要的是依靠听觉判断模型效果的好坏，而不是仅仅依赖参数。作者建议在训练过程中多次用耳朵进行检验，以确保最佳音质。

三. 最终推理与合成

模型训练接近完成时，可以利用WebUI界面进行推理和歌曲合成。作者推荐使用一个免费的音乐下载网站获取音乐，并使用剪映软件进行人声与伴奏的分离。分离完毕后，将干声上传到SVC的WebUI页面，进行音频转换。转换成功后，将AI唱歌的声音与伴奏合成即可。

四. 保存模型下次使用

作者提醒，使用云服务时务必记得及时保存模型，以免所有工作白费。他提供了保存模型的详细路径，并建议将模型下载到本地保存。

最后，作者表达了编写教程的艰辛，希望能为读者带来帮助。他鼓励读者点赞、转发，如果觉得内容有用，可以给文章一个星标。

想要了解更多内容？

查看原文：AI唱歌之终极喂饭教程 - SVC的极限就在这了

文章来源：

数字生命卡兹克

扫码关注公众号

相关推荐

理解 DDD：编程中的模型思维

444

模型业务计算机逻辑

业务设计上往往没有建立起特定的领域模型，这是我们架构腐化和软件开发困难的关键原因。**业务领域建立好的模型，并指导代码实践，这就是 ”编程思维“。** DDD 领域驱动设计就是解决这部分问题，与其叫领域驱动设计，不如叫做模型驱动设计。

LLMOps快速入门，轻松开发部署大语言模型

497

模型 LLM LLMOps 提示

深入介绍LLMOps。

AIGC｜万字长文！带你了解AI大模型技术演进

2311

模型神经网络 AI

大模型时代来临，我们站上了风口浪尖→

大语言模型概述

360

模型语言生成文本

大语言模型是使用深度学习技术构建的自然语言处理模型，其目标是尽可能地模拟人类语言的处理和生成能力。

语言大模型

460

模型语言训练文本

语言大模型通常采用神经网络结构，使用大规模的文本数据进行训练，通过学习文本数据中的语法、语义和上下文信息，来生成各种形态内容的模型。

2024 年数据管理在人工智能中的四大趋势

534

数据模型人工智能数据集

在 2023 年即将结束之际，我们会发现随着 ChatGPT 的引

数字生命卡兹克

努力分享一些很新、很酷的AI干货。

185 篇文章

浏览 76.2K

数字生命卡兹克的其他文章

11Labs的AI音效上手评测 - AI视频终不再是无声电影

有用，但一般

Kimi上线了做PPT的功能，于是我又连夜测了18款AI做PPT的产品。

第一遥遥领先。

实测完快手的AI视频「可灵」后，我觉得这才是第一个中国版Sora

快手，他配。

AI视频的质量，离世界顶级的渲染大赛还有多远的路？

AI视频还是个弟弟

当我用AI帮我砍价，它居然上来就先给商家跪下了？

赛博砍价，在线磕头

随机阅读

3分钟弄懂CMMI2.0基准评估的抽样规则

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载