【AI语音克隆】GPT-SoVITS V2版,业界最强的AI声音克隆软件、文本转语音工具,新增两种新语种,更强的V2模型
昨日之日2006 2024-10-05 12:01:01 阅读 56
GPT-SoVITS软件由RVC变声器创始人“花儿不哭”大佬开发,GPT-SoVITS的面世,彻底结束了语音克隆被商业垄断的历史,只要你有一张显卡,也能玩曾经高大上的语音克隆了。
项目地址:https://github.com/RVC-Boss/GPT-SoVITS
一键包下载:【AI语音克隆】GPT-SoVITS V2版,业界最强的AI声音克隆软件、文本转语音工具,新增两种新语种,更强的V2模型
说下V2版本的更新:新增两种语种,现在支持中、英、日、韩、粤物种语种,现在1分钟的参考音频就能训练出很好的效果。
对中英多音字做了优化,解决了旧版吞字的问题,情绪化复刻效果更加逼真了。
其他更多的效果大家自行体验,使用和之前的老版本类似。
软件下载后,解压出来,建议解压到非中文目录下,切记!
在所有操作前,准备好需要克隆的声音素材,要求无杂音,吐齿清晰,1-3分钟左右即可。
素材的质量,决定合成的效果。
解压后,运行 go-webui.bat,即可启动webUI界面,后期所有的操作,就在整个页面进行。
UI最上方有官方的使用教程手册,想系统的学习可以参考:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e
第一步:素材准备
填上参考音频的路径,就是需要克隆的音频保存路径,如上图,其他参数默认即可。然后点击“开启语音切割”
如果是中文,ASR 模型这里,建议用阿里的达摩ASR,ASR 模型尺寸根据显卡来,好卡选择large,识别更精准速度更快。
如果是英文或者日韩,ASR 模型这里用openAI的Whisper,ASR 模型尺寸同样根据显卡来,好卡选择large-V3,识别更精准速度更快。
其他参数默认,然后点击“开启离线批量ASR”,如上图
第二步:模型训练
素材准备好后,切换到 “1-GPT-SoVITS-TTS” ,填写 模型名称,其他参数可默认,如果对其他参数有兴趣研究,可以参考官方的文档进行自定义设置。
之后点“开启一键三连”,如上图。
随后切换到“1B 微调训练”选项卡,如下图,Batch_size和总轮数一般默认就很好了,也可以根据自己的素材和显卡来设置
第三步:推理
之后返回软件根目录,找到两个推理的批处理,如下图
显卡好的,比如30系、40系显卡,选择 “推理 半精度”,比如老的显卡,比如20系前的老卡,不支持半精度的选择 “推理 全精度”
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。