新出的一款TTS模型：Orpheus TTS，情感表达贴近人类

新出的一款TTS模型：Orpheus TTS，情感表达贴近人类，效果听上去流畅自然，支持实时输出流，且超低延迟。延迟约200毫秒，通过输入流到模型的KV缓存可进一步降低延迟，延迟压缩到25-50毫秒，能支持实时对话场景。支持情感和语调控制，可以在提示中添加标签或少量微调数据，来控制生成语音的高兴、悲伤、生气或困倦等语音情绪，支持零样本语音克隆。有4个型号：Medium，3B；Small，1B；Tiny，400M；Nano，150M。Orpheus的语音质量算是比较高的，该项目后面还会再发一个开源的端到端语音模型。

参考文献：
[1] https://github.com/canopyai/Orpheus-TTS
[2] https://huggingface.co/canopylabs/orpheus-3b-0.1-pretrained
[3] https://huggingface.co/canopylabs/orpheus-3b-0.1-ft

（文：NLP工程化）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复