【AI语音克隆】GPT-SoVITS V2版，业界最强的AI声音克隆软件、文本转语音工具，新增两种新语种，更强的V2模型

昨日之日2006 2024-10-05 12:01:01 阅读 56

read-normal-img

GPT-SoVITS软件由RVC变声器创始人“花儿不哭”大佬开发，GPT-SoVITS的面世，彻底结束了语音克隆被商业垄断的历史，只要你有一张显卡，也能玩曾经高大上的语音克隆了。

项目地址：https://github.com/RVC-Boss/GPT-SoVITS

一键包下载：【AI语音克隆】GPT-SoVITS V2版，业界最强的AI声音克隆软件、文本转语音工具，新增两种新语种，更强的V2模型

说下V2版本的更新：新增两种语种，现在支持中、英、日、韩、粤物种语种，现在1分钟的参考音频就能训练出很好的效果。

对中英多音字做了优化，解决了旧版吞字的问题，情绪化复刻效果更加逼真了。

其他更多的效果大家自行体验，使用和之前的老版本类似。

软件下载后，解压出来，建议解压到非中文目录下，切记！

在所有操作前，准备好需要克隆的声音素材，要求无杂音，吐齿清晰，1-3分钟左右即可。

素材的质量，决定合成的效果。

解压后，运行 go-webui.bat，即可启动webUI界面，后期所有的操作，就在整个页面进行。

UI最上方有官方的使用教程手册，想系统的学习可以参考：https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

第一步：素材准备

read-normal-img

填上参考音频的路径，就是需要克隆的音频保存路径，如上图，其他参数默认即可。然后点击“开启语音切割”

read-normal-img

如果是中文，ASR 模型这里，建议用阿里的达摩ASR，ASR 模型尺寸根据显卡来，好卡选择large，识别更精准速度更快。

如果是英文或者日韩，ASR 模型这里用openAI的Whisper，ASR 模型尺寸同样根据显卡来，好卡选择large-V3，识别更精准速度更快。

其他参数默认，然后点击“开启离线批量ASR”，如上图

第二步：模型训练

read-normal-img

素材准备好后，切换到 “1-GPT-SoVITS-TTS” ，填写模型名称，其他参数可默认，如果对其他参数有兴趣研究，可以参考官方的文档进行自定义设置。

之后点“开启一键三连”，如上图。

随后切换到“1B 微调训练”选项卡，如下图，Batch_size和总轮数一般默认就很好了，也可以根据自己的素材和显卡来设置

read-normal-img

第三步：推理

之后返回软件根目录，找到两个推理的批处理，如下图

read-normal-img

显卡好的，比如30系、40系显卡，选择 “推理半精度”，比如老的显卡，比如20系前的老卡，不支持半精度的选择 “推理全精度”

read-normal-img

选择训练好的GPT和SoVITS 模型，上传参考音频，输入参考音频文本，输入需要转换的文字，点“合成语音”即可！

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。