
最近TTS的开源项目大爆发了吗?
看了好多,有亮点的慢慢给大家推荐,具体用哪个得看你实际应用场景了。
TTS的开源项目本来就挺多的,我们最近有个项目也在用,选起来真是费时费力。
尽可能的多帮大家找一些,帮大家省一些去找项目和对比的时间。
一共有4个型号。
-
Medium – 3B parameters
-
Small – 1B parameters
-
Tiny – 400M parameters
-
Nano – 150M parameters
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)

项目简介
Orpheus TTS 是一个基于 Llama – 3b 架构的开源文本转语音工具。它能生成自然流畅、情感丰富的说话音频,支持零样本语音克隆,可通过简单标签控制语音情感和语调,且低延迟非常低适合实时输出场景。项目提供英语和多语言模型,包含预训练和微调版本。
DEMO
功能特点
出色的语音合成能力
-
类人语音:拥有自然的语调、情感和节奏,优于当前大多数闭源模型。
-
零样本语音克隆:无需事先微调,即可克隆语音。
-
情感语调引导:通过简单标签就能控制语音的情感和语调特征。
-
低延迟:实时应用的流式传输延迟约 200ms,使用输入流时可降至约 100ms。
多种模型选择
-
英语模型:提供 “Finetuned Prod” 和 “Pretrained” 两款模型,分别适用于日常 TTS 应用和作为基础模型。
-
多语言模型:推出多语言模型家族,包含 7 对预训练和微调模型。
推理方式
-
标准提示格式:跨语言提供标准化提示格式,并给出英文使用示例。
-
流式推理:支持流式推理,给出详细的代码示例。
-
附加功能:可对音频添加水印,支持无 GPU 推理。
模型训练
-
微调模型:过程简单,类似使用 Trainer 和 Transformers 微调 LLM,约 50 个示例可见效果,300 个示例 / 说话人效果最佳。
-
预训练模型:与训练 LLM 类似,不建议使用合成数据训练,提供详细训练说明。
项目链接
https://github.com/canopyai/Orpheus-TTS
关注「开源AI项目落地」公众号
(文:开源AI项目落地)