基于 Apple 的 MLX 框架构建的文本转语音 (TTS) 和语音转语音 (STS) 库,可在 Apple Silicon 上提供高效的语音合成。特征:
-
在 Apple Silicon(M 系列芯片)上进行快速推理 -
多语言支持 -
语音自定义选项 -
量化支持,优化性能
支持的型号:
-
Kokoro – 具有 82M 个参数的多语言 TTS 模型,支持各种语言和语音风格。更多模型即将推出。


参考文献:
[1] https://github.com/Blaizzy/mlx-audio
(文:NLP工程化)