Zyphra 发布的 Zonos-v0.1 是领先的开放权重文本到语音模型

Zyphra 发布的 Zonos-v0.1 是领先的开放权重文本到语音模型,提供与顶级 TTS 提供商相当甚至更出色的表现力和质量。它能够在给定说话人嵌入或音频前缀的情况下,从文本提示生成高度自然化的语音。只需 5 到 30 秒的语音,Zonos 就能实现高保真度的声音克隆。它还允许根据说话速度、音调变化、音频质量和悲伤、恐惧、愤怒、快乐和喜悦等情绪进行条件化。该模型以 44kHz 的采样率原生输出语音。

  • 高保真语音克隆:通过输入5到30秒的语音样本进行高保真的语音克隆。
  • 多语言支持:支持英语、日语、中文、法语和德语。
  • 情绪调节与语音定制:提供了多种语音定制选项,包括音高、语速、音质和情绪等方面。
  • 前缀匹配与说话人定制:通过添加文本和音频前缀,能实现更精细的说话人匹配效果。
  • 超高性能与实时生成:在性能方面表现得非常突出,特别是在 RTX 4090 显卡上运行时,实时率约为2倍。
  • 内置简易界面:Zonos 内置了一个易于使用的 gradio 界面,用于生成语音。

参考文献:
[1] GitHub 项目地址:https://github.com/Zyphra/Zonos

[2] 模型地址:https://huggingface.co/Zyphra/Zonos-v0.1-hybrid
[3] https://www.zyphra.com/post/beta-release-of-zonos-v0-1
[4] https://maia.zyphra.com/sign-in


(文:NLP工程化)

欢迎分享

发表评论