爆火开源TTS,支持零样本克隆,200ms超低延迟,情感语调超自然。


最近TTS的开源项目大爆发了吗?


看了好多,有亮点的慢慢给大家推荐,具体用哪个得看你实际应用场景了。


TTS的开源项目本来就挺多的,我们最近有个项目也在用,选起来真是费时费力。


尽可能的多帮大家找一些,帮大家省一些去找项目和对比的时间。


一共有4个型号。


  • Medium – 3B parameters

  • Small – 1B parameters

  • Tiny – 400M parameters

  • Nano – 150M parameters


扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)


项目简介


Orpheus TTS 是一个基于 Llama – 3b 架构的开源文本转语音工具。它能生成自然流畅、情感丰富的说话音频,支持零样本语音克隆,可通过简单标签控制语音情感和语调,且低延迟非常低适合实时输出场景。项目提供英语和多语言模型,包含预训练和微调版本。


DEMO



功能特点


出色的语音合成能力


  • 类人语音:拥有自然的语调、情感和节奏,优于当前大多数闭源模型。


  • 零样本语音克隆:无需事先微调,即可克隆语音。


  • 情感语调引导:通过简单标签就能控制语音的情感和语调特征。


  • 低延迟:实时应用的流式传输延迟约 200ms,使用输入流时可降至约 100ms。


多种模型选择


  • 英语模型:提供 “Finetuned Prod” 和 “Pretrained” 两款模型,分别适用于日常 TTS 应用和作为基础模型。


  • 多语言模型:推出多语言模型家族,包含 7 对预训练和微调模型。


推理方式


  • 标准提示格式:跨语言提供标准化提示格式,并给出英文使用示例。


  • 流式推理:支持流式推理,给出详细的代码示例。


  • 附加功能:可对音频添加水印,支持无 GPU 推理。


模型训练


  • 微调模型:过程简单,类似使用 Trainer 和 Transformers 微调 LLM,约 50 个示例可见效果,300 个示例 / 说话人效果最佳。


  • 预训练模型:与训练 LLM 类似,不建议使用合成数据训练,提供详细训练说明。



项目链接


https://github.com/canopyai/Orpheus-TTS


 关注「开源AI项目落地」公众号

(文:开源AI项目落地)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往