kyutai_labs把它的TTS开源了:Kyutai TTS

kyutai_labs把它的TTS开源了:Kyutai TTS,支持文本流式传输、低延迟。使用L40S GPU,可同时处理32个请求,延迟为 350毫秒。除了生成音频,Kyutai TTS 还会输出单词的确切时间戳。英语和法语的WER分别为2.82和3.29,说话者相似度为77.1%和78.7%。能处理长文章,目前支持英语和法语。

参考文献:
[1] https://kyutai.org/next/tts



知识星球:Dify源码剖析及答疑,Dify扩展系统源码,AI书籍课程|AI报告论文,公众号付费资料。加微信buxingtianxia21进NLP工程化资料群,以及Dify交流群。

(文:NLP工程化)

发表评论