月度归档:2023年04月

so-vits-svc-4.0 声音克隆神器

首先B站是个学习的好地方

1 先准备数据

源数据用歌曲比较好,因为歌曲里人声的高中低音都有,学习的效果比较好

先一张专集就可以

2 使用Ultimate Vocal Remover处理数据

先去掉伴奏,设置如下

 

 

 

 

 

 

 

 

 

再去掉合声,设置如下

 

 

 

 

 

 

 

 

****__(Vocals)_(Vocals).wav就是结果文件了,可以听听,是不是只有人声了

3 文件分隔,一首歌对于显存来说太大了,我们要把人声分隔成更小的文件用到工具Audio Slicer

把文件复制到so-vits-svc-4.0\dataset_raw\{人物名}\下

 

 

 

 

 

 

选好路径后,默认参数就可以。

———以上是准备工作——–

4  动行 1、数据预处理

接下来可以直接运行整合包里的脚本 1、数据预处理.bat。

它会在so-vits-svc-4.0\dataset\44k\{人物名}下生成.pt    .npy 等文件,等它自动处理完成就可以了

 

5 运行 2、训练.bat 即可开启训练。

如果你的显卡够好,可以增加 batch_size 提高训练速度,对应的配置文件在 configs/config.json 文件里。

这个训练时间很长,大概需要十几个小时的时间。

(这一步时间很长,可以随机ctrl+c停下来,继续后边的步骤,效果不满意再继续这一步)

 

6 推理预测
推理预测同理,新运行 3、训练聚类模型.bat 生成数据 pt 文件。几分钟即可跑完。

然后修改 app.py 里的这一行:

model = Svc(“logs/44k/G_35000.pth”, “configs/config.json”, cluster_model_path=”logs/44k/kmeans_10000.pt”)

训练好的模型存放在了 logs/44k 目录下,这里改为你训练好的模型地址,以及对应的配置文件,最后是第三步生成的 pt 文件路径。

记住这里 app.py 必须改好,否则第四步会报错。

 

7 运行 4、推理预测.bat 文件。

程序会直接开启一个 webui,直接复制到浏览器地址栏中打开即可。

就是一个简单的 Web 页面,里面的参数,可以直接使用默认的,放入一个音频,即可转换音色了。

确认流程都跑通后,可以试着调整一些参数,个人影响太大,主要还是看训练数据,也就是用软件分离的干声质量。

 

8 处理完的声音是人物的人声没有音乐。要用PR等工具把之前UVR5分离出来的伴奏与人声合成在一起

大功告成!!!

UP主分享的整合包。

https://pan.baidu.com/s/1Jm-p_DZ2IVcNkkOYVULerg?pwd=qi2p