除了ChatTTS，又一款国产TTS模型出现了——Fish Speech

吴脑的键客 2024-10-09 08:31:01 阅读 52

Fish Speech V1.2 是一款领先的文本到语音 (TTS) 模型，使用 30 万小时的英语、中文和日语音频数据进行训练。我尝试用1066运行，但是质量不尽如人意，建议使用RTX系列的显卡进行推理。

下载 https://huggingface.co/fishaudio/fish-speech-1.2

Github https://github.com/fishaudio/fish-speech

文档 https://speech.fish.audio/

要求

GPU 内存: 4GB (用于推理), 16GB (用于微调)

系统: Linux, Windows

<code># 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv

conda create -n fish-speech python=3.10

conda activate fish-speech

# 安装 pytorch

pip3 install torch torchvision torchaudio

# 安装 fish-speech

pip3 install -e .

# (Ubuntu / Debian 用户) 安装 sox

apt install libsox-dev

官方文档简洁而且明确，建议直接食用。https://speech.fish.audio/inference/

由于内置Llama模型，所以可以对该部分进行微调，详细参考文档https://speech.fish.audio/finetune/

感谢大家花时间阅读我的文章，你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容，请多多关注我的动态！

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。