【AI声音克隆】教你如何“夺取“别人的声音!GPT-SoVITS整合包发布(WIN/MAC)

CSDN 2024-06-27 17:31:02 阅读 89

今天给大家分享一个声音克隆的项目。我们只要上传一分钟的语音，就可以完美复刻任意角色的语音语气、语调，实现声音情感的真实复刻，而且它还支持中日英等多个语种。我为大家制作了Windows版本和Mac版本的整合包（文章末尾自取）

首先听下我用了四位朋友的一分钟的语音素材来训练的音频效果。

声音演示

下面我分享制作流程，篇幅较长，多图，但是步骤很简单。

安装与启动

Win：

Windows用户将下载好的压缩包解压到本地目录，双击启动器.exe即可。

耐心等待一会儿，会自动打开一个网页。这就是程序的主界面。

Mac：

Mac用户由于权限设置会比Windows相对麻烦些，首先解压压缩包，来到项目路径下，我们看到这两个文件是文稿形式，这时我们需要开启下文件权限才可以使用。

回到最外层文件夹，也就是你解压包所在的目录。

打开终端。

输入指令sudo chmod -R 777 ，然后将文件夹拖拽进终端内。

完整命令，别忘了777后有个空格

之后按下回车。这时需要输入屏幕密码，我们输入密码后按回车。（输入的时候密码不会显示）

执行完毕，我们可以将终端窗口关闭。

再次回到项目目录内，可以看到刚才的两个文件已经变成Unix可执行文件的格式。这就代表成功了，如果这两个文件没变成Unix可执行文件的格式，你需要检查下上一步是否正确执行。

接下来，Mac用户还需要开启允许任何来源APP的权限才可以完全使用。如果你不知道你的电脑是否开启了这个选项，你可以进入系统设置--隐私与安全性--安全性，查看是否是任何来源选项。

如果你已经开启，请忽略下面的步骤，如果不是任何来源选项，根据下面步骤开启。

双击来源开启。

选择打开。

提示需要输入锁屏密码。输入完毕后按回车。

显示开启成功，可以将终端窗口关掉。

到这里为止，Mac用户使用前的权限都开启了。后续使用无需重复执行以上步骤，直接点击启动器启动即可。

双击启动器。弹出的询问框点击打开。

耐心等待一会儿，会自动打开一个网页。这就是程序的主界面。

开始操作

从这里开始，Windows用户和Mac用户的操作步骤是一样的。

分三大步骤：

数据集处理。

模型训练。

推理模型。

数据集处理

请认真准备数据集！以免后面出现各种报错，和炼出不理想的模型！好的数据集是炼出好的模型的基础！

首先我们需要准备一段音频文件，准备一段人物说话的音频即可。

音频标准：

音频里不要有嘈杂的环境音、噪音、背景音乐等。

音频长度30s-60s。

音频格式为wav。

下面是我用的音频，可以参考下：

原音频参考

如果你的音频里有背景音乐等杂音，需要执行下面步骤进行处理，如果没有请忽略。

音频处理

勾选此选项，然后会自动进入声音处理界面。

第一步拖拽需要处理的音频。第二步根据说明来选择对应的模型，一般选择HP3就足够了。第三步选择导出文件格式为WAV。

然后点击转换，耐心等待一会儿。

当输出信息这一栏有Success字样就完成了音频的处理。

可以在项目路径下：output--uvr5_opt文件夹下找到处理的两个音频文件。一个是伴奏，一个是人声。我们训练需要用到人声部分。

处理完毕后我们来到主界面将这个选项关闭。

音频切分

这里填入准备好的音频路径。然后点击开启语音切割。

切分好的音频在GPT-SoVITS-main/output/slicer_opt文件夹内。

音频降噪

这一步根据你的音频质量来，如果噪音不大，此步骤可以忽略不执行。

这里填入上一步切分好的音频路径。点击开启语音降噪。

降噪完成。

降噪完成的音频文件在GPT-SoVITS-main/output/denoise_opt文件夹内。

音频打标

这一步只需要填写输入文件夹路径。如果你音频降噪过，那么是GPT-SoVITS-main/output/denoise_opt文件夹，如果你切分了没有降噪，那么是GPT-SoVITS-main/output/slicer_opt文件夹。其他选项保持默认，然后点击开启离线批量ASR。