Zyphra 发布的 Zonos-v0.1 是领先的开放权重文本到语音模型

Zyphra 发布的 Zonos-v0.1 是领先的开放权重文本到语音模型，提供与顶级 TTS 提供商相当甚至更出色的表现力和质量。它能够在给定说话人嵌入或音频前缀的情况下，从文本提示生成高度自然化的语音。只需 5 到 30 秒的语音，Zonos 就能实现高保真度的声音克隆。它还允许根据说话速度、音调变化、音频质量和悲伤、恐惧、愤怒、快乐和喜悦等情绪进行条件化。该模型以 44kHz 的采样率原生输出语音。

高保真语音克隆：通过输入5到30秒的语音样本进行高保真的语音克隆。
多语言支持：支持英语、日语、中文、法语和德语。
情绪调节与语音定制：提供了多种语音定制选项，包括音高、语速、音质和情绪等方面。
前缀匹配与说话人定制：通过添加文本和音频前缀，能实现更精细的说话人匹配效果。
超高性能与实时生成：在性能方面表现得非常突出，特别是在 RTX 4090 显卡上运行时，实时率约为2倍。
内置简易界面：Zonos 内置了一个易于使用的 gradio 界面，用于生成语音。

参考文献：
[1] GitHub 项目地址：https://github.com/Zyphra/Zonos

[2] 模型地址：https://huggingface.co/Zyphra/Zonos-v0.1-hybrid
[3] https://www.zyphra.com/post/beta-release-of-zonos-v0-1
[4] https://maia.zyphra.com/sign-in

（文：NLP工程化）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复