一款新的（TTS）模型支持高保真语音克隆

总部位于加利福尼亚州帕洛阿尔托的公司 Zyphra 正在开发一种新型多模态人工智能代理系统，并宣布发布 Zonos-v0.1 beta，这是一对具有高保真语音克隆功能的极具表现力的文本转语音（TTS）模型。该公司以 Apache 2.0 许可证发布了基于 Transformer 和混合架构的 TTS 模型，这意味着这些模型可以自由地重新分发。

访问 Zyphra 网站，用户可以体验这两款新的文本转语音（TTS）模型，并测试其独特的高保真语音克隆功能，该功能可以将克隆的语音应用于朗读任何文本，并展现出卓越的表现力。网站还展示了 Zonos 在质量和表现力方面如何优于领先的 TTS 提供商。

人类为什么需要语音克隆（或 AI 音乐生成）是一个值得我们所有人思考的问题。但与人工智能相关的任何事情一样，研究的发展速度远远快于我们思考其后果的时间。Zonos 模型清楚地表明，知名的配音演员和播音员需要利用其独特的语音“模型”，而不仅仅是他们的作品。鉴于我们对媒体内容的依赖，深度伪造（deepfakes）问题将比想象的更加严重。

据 Zyphra 介绍，Zonos 提供了对语速、情感、音调和音频质量的灵活控制，并支持即时无限次的高质量语音克隆。Zonos 原生生成 44KHz 的语音，并且仅需 5 到 30 秒的语音样本即可克隆任何声音。Zonos 能够根据给定的说话者嵌入或音频前缀，从文本提示中生成高度表现力和自然的语音。Zonos 还可以根据语速、音高标准差、音频质量以及情感（如悲伤、恐惧、愤怒、快乐和惊讶）进行调节。

这些模型在大约 20 万小时的语音数据上进行了训练，涵盖了中性语调的语音（如有声书朗读）和高度表现力的语音。大部分数据是英语，但也有大量的中文、日语、法语、西班牙语和德语数据，以提高其可用性。

该公司在其博客中表示：

“我们相信，公开发布这种水平的模型将显著推动 TTS 研究的发展。目前，Zonos 处于测试预览阶段。虽然 Zonos 具有高度表现力，但在生成过程中有时不可靠，可能会产生一些有趣的瑕疵。我们期待在未来几个月继续推动对话代理性能、可靠性和效率的前沿发展。”

“我们高度优化的推理引擎为 Zonos API 和测试平台提供支持，实现了令人印象深刻的首音频时间（TTFA）指标。混合模型展示了特别高效的性能特征，与基于 Transformer 的模型相比，延迟和内存开销更低，这得益于其基于 Mamba2 的架构，减少了对注意力块的依赖。”

“在未来的模型版本中，我们的目标是显著提高模型的可靠性、处理特定发音的能力、支持的语言数量，以及用户对情感和其他声音特征的控制水平。我们还将进一步追求架构创新，以提升模型质量和推理性能。”

目前，这些 Zonos 模型以 Apache 2.0 许可证发布，包括首个开源的 SSM 混合音频模型，使音频行业能够测试和尝试这一技术以及现已开放的模型 API。

（文：AI音频时代）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复