【AI一键启动】ChatTTS语音合成WebUI界面一键启动,开箱即用!

阿_旭 2024-07-07 12:01:03 阅读 52

《博主简介》

小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。

更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~

👍感谢小伙伴们点赞、关注!

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称 项目名称
1.【人脸识别与管理系统开发】 2.【车牌识别与自动收费管理系统开发】
3.【手势识别系统开发】 4.【人脸面部活体检测系统开发】
5.【图片风格快速迁移软件开发】 6.【人脸表表情识别系统
7.【YOLOv8多目标识别与自动标注软件开发】 8.【基于YOLOv8深度学习的行人跌倒检测系统
9.【基于YOLOv8深度学习的PCB板缺陷检测系统 10.【基于YOLOv8深度学习的生活垃圾分类目标检测系统
11.【基于YOLOv8深度学习的安全帽目标检测系统 12.【基于YOLOv8深度学习的120种犬类检测与识别系统
13.【基于YOLOv8深度学习的路面坑洞检测系统 14.【基于YOLOv8深度学习的火焰烟雾检测系统
15.【基于YOLOv8深度学习的钢材表面缺陷检测系统 16.【基于YOLOv8深度学习的舰船目标分类检测系统
17.【基于YOLOv8深度学习的西红柿成熟度检测系统 18.【基于YOLOv8深度学习的血细胞检测与计数系统
19.【基于YOLOv8深度学习的吸烟/抽烟行为检测系统 20.【基于YOLOv8深度学习的水稻害虫检测与识别系统
21.【基于YOLOv8深度学习的高精度车辆行人检测与计数系统 22.【基于YOLOv8深度学习的路面标志线检测与识别系统
23.【基于YOLOv8深度学习的智能小麦害虫检测识别系统 24.【基于YOLOv8深度学习的智能玉米害虫检测识别系统
25.【基于YOLOv8深度学习的200种鸟类智能检测与识别系统 26.【基于YOLOv8深度学习的45种交通标志智能检测与识别系统
27.【基于YOLOv8深度学习的人脸面部表情识别系统 28.【基于YOLOv8深度学习的苹果叶片病害智能诊断系统
29.【基于YOLOv8深度学习的智能肺炎诊断系统 30.【基于YOLOv8深度学习的葡萄簇目标检测系统
31.【基于YOLOv8深度学习的100种中草药智能识别系统 32.【基于YOLOv8深度学习的102种花卉智能识别系统
33.【基于YOLOv8深度学习的100种蝴蝶智能识别系统 34.【基于YOLOv8深度学习的水稻叶片病害智能诊断系统
35.【基于YOLOv8与ByteTrack的车辆行人多目标检测与追踪系统 36.【基于YOLOv8深度学习的智能草莓病害检测与分割系统
37.【基于YOLOv8深度学习的复杂场景下船舶目标检测系统 38.【基于YOLOv8深度学习的农作物幼苗与杂草检测系统
39.【基于YOLOv8深度学习的智能道路裂缝检测与分析系统 40.【基于YOLOv8深度学习的葡萄病害智能诊断与防治系统
41.【基于YOLOv8深度学习的遥感地理空间物体检测系统 42.【基于YOLOv8深度学习的无人机视角地面物体检测系统
43.【基于YOLOv8深度学习的木薯病害智能诊断与防治系统 44.【基于YOLOv8深度学习的野外火焰烟雾检测系统
45.【基于YOLOv8深度学习的脑肿瘤智能检测系统 46.【基于YOLOv8深度学习的玉米叶片病害智能诊断与防治系统
47.【基于YOLOv8深度学习的橙子病害智能诊断与防治系统 48.【车辆检测追踪与流量计数系统
49.【行人检测追踪与双向流量计数系统 50.【基于YOLOv8深度学习的反光衣检测与预警系统
51.【危险区域人员闯入检测与报警系统 52.【高压输电线绝缘子缺陷智能检测系统

二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~

三、深度学习【Pytorch】专栏【链接】

四、【Stable Diffusion绘画系列】专栏【链接】

五、YOLOv8改进专栏【链接】持续更新中~~

六、YOLO性能对比专栏【链接】,持续更新中~

《------正文------》

引言

本文主要分享一个最新的ChatTTS语音合成项目的自制一键启动程序【部分界面英文进行了汉化处理】,开箱即用,无需配置运行环境,供小伙伴们学习交流。感兴趣的小伙伴可以文末免费获取。

启动后界面如下:

在这里插入图片描述

ChatTTS 简介

ChatTTS 是一款为对话场景设计的语音合成模型,专为 LLM 助手任务优化。它不仅支持多语言,还能预测和控制细粒度的韵律特征,包括笑声、停顿和插话等。实测语音生成效果还是十分不错的。

一键启动包使用说明

在这里插入图片描述

下载压缩包后解压,然后双击一键启动.exe运行压缩包。弹出的控制台会显示运行状态,如下所示:

在这里插入图片描述

启动完成后,会自动弹出如下网页。如果没有自动弹出网页,可在浏览器输入控制台显示的url地址即可显示页面,如上方显示的:http://0.0.0.0:8081

在这里插入图片描述

输入想生成语音的文字内容,点击生成音频按钮即可生成音频文件,控制台会显示处理进度。语音生成完成后,点击语音播放即可播放生成的音频文件。点击音频右上角下载标识,即可下载生成的音频文件。

在这里插入图片描述

下面对界面中的主要参数进行详细说明。

页面参数说明

文本预处理

表示是否对输入的文本先进行预处理后再进行生成音频。默认勾选。勾选此选项可以对输入文本进行优化或修改,提升语音的自然度和可理解性。

Audio Seed

在这里插入图片描述

用于初始化随机数生成器的种子值,可用于生成不同音色的音频文件。设置相同的 Audio Seed 可以确保重复生成一致的语音,便于实验和调试。点击旁边的骰子按钮,可对音色进行随机抽卡。

Text Seed

在这里插入图片描述

类似于 Audio Seed,在文本生成阶段用于初始化随机数生成器的种子值。点击旁边的骰子按钮,可对文本进行随机抽卡。,处理后会随机加一些更细粒度的控制,比如调整笑声、停顿和口音等。

Audio Temperature

用于控制输出的随机性。数值越高,生成的语音越可能包含意外变化;数值较低则趋向于更平稳的输出。

Top_P 和 Top_K

Top_P: 核采样策略,定义概率累积值,模型将只从这个累积概率覆盖的最可能的词中选择下一个词。

Top_K: 限制模型考虑的可能词汇数量,设置为一个具体数值,模型将只从这最可能的 K 个词中选择下一个词。

进阶使用技巧

除了基本的参数设置,还可以进行更细粒度的控制,比如调整笑声、停顿和口音。以下是一些常用的控制标记:

[oral_(0-9)]: 控制口音强度

[laugh_(0-2)]: 控制笑声

[break_(0-7)]: 控制停顿时间

试试不同的组合,比如 [oral 2][laugh 0][break 4],探索更多有趣的语音效果。

项目地址:https://github.com/2noise/ChatTTS

资料获取

关于本文的一键启动包等文件都已打包好,供需要的小伙伴们学习,免费获取方式如下:

在这里插入图片描述

关注文末名片G-Z-H:【阿旭算法与机器学习】,发送【开源】即可免费获取



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。