新出的一款TTS模型:Orpheus TTS,情感表达贴近人类

新出的一款TTS模型:Orpheus TTS,情感表达贴近人类,效果听上去流畅自然,支持实时输出流,且超低延迟。延迟约200毫秒,通过输入流到模型的KV缓存可进一步降低延迟,延迟压缩到25-50毫秒,能支持实时对话场景。支持情感和语调控制,可以在提示中添加标签或少量微调数据,来控制生成语音的高兴、悲伤、生气或困倦等语音情绪,支持零样本语音克隆。有4个型号:Medium,3B;Small,1B;Tiny,400M;Nano,150M。Orpheus的语音质量算是比较高的,该项目后面还会再发一个开源的端到端语音模型。

参考文献:
[1] https://github.com/canopyai/Orpheus-TTS
[2] https://huggingface.co/canopylabs/orpheus-3b-0.1-pretrained
[3] https://huggingface.co/canopylabs/orpheus-3b-0.1-ft



(文:NLP工程化)

欢迎分享

发表评论