随着人工智能技术的飞速发展，文本转语音（TTS）技术在众多领域得到了广泛应用，从智能语音助手到有声读物，再到播客和视频配音等。

然而，现有的TTS模型往往存在一些局限性，例如依赖大量目标说话人的语音数据进行训练，或者缺乏高效的推理加速框架。

为了突破这些限制，MYZY AI团队推出了一款名为Muyan-TTS的开源文本转语音模型，专为播客场景设计，能够在无需大量目标说话人数据的情况下实现高质量的语音合成，并支持说话人适配和个性化语音定制。

一、项目概述

Muyan-TTS是一款开源的文本转语音（TTS）模型，专为播客和长篇语音内容生成场景设计。该模型预训练了超过10万小时的播客音频数据，能够实现零样本语音合成，即无需大量目标说话人的语音数据，仅通过少量参考语音和文本即可生成高质量语音。此外，Muyan-TTS还支持说话人适配功能，可以通过少量目标说话人的语音数据进行微调，实现个性化语音定制。其合成速度快，仅需0.33秒即可生成1秒音频，适合实时应用，并且能够自然连贯地合成长篇内容，如播客、有声书等。

二、技术架构

（一）框架设计

Muyan-TTS的技术架构基于GPT-SoVITS框架，结合了预训练的Llama-3.2-3B作为语言模型（LLM），以及SoVITS模型进行音频解码。LLM负责将文本和音频token对齐，生成中间表示，而SoVITS模型则将中间表示解码为音频波形。这种架构设计既利用了LLM强大的文本语义理解能力，又通过SoVITS模型实现了高质量的音频生成。

（二）数据处理

Muyan-TTS的数据集包含超过10万小时的播客音频数据，经过多阶段处理，包括数据收集、清洗和格式化，确保数据的高质量和多样性。具体步骤如下：

1. 数据收集：从开源数据集和专有播客内容中收集音频数据，经过质量评估后，保留高质量音频。

2. 数据清洗：通过音乐源分离、去混响、去回声和降噪等技术，提升音频质量。

3. 数据格式化：将音频分割为单句，去除短于5秒的片段，并使用自动语音识别（ASR）模型将音频转录为文本，形成平行语料库。

（三）预训练与微调

LLM在平行语料库上进行预训练，学习文本和音频token之间的关系。在此基础上，通过监督微调（SFT），利用少量目标说话人的语音数据进一步优化模型，提高语音合成的自然度和相似度。

（四）解码器优化

Muyan-TTS采用VITS基础模型作为解码器，减少幻觉问题，提高语音生成的稳定性和自然度。解码器在高质量音频数据上进行微调，进一步提升合成语音的保真度和表现力。

（五）推理加速

通过高效的内存管理和并行推理技术，Muyan-TTS显著提高了推理速度，降低了延迟。模型支持API模式，自动启用加速功能，适合实时应用。

三、主要功能

（一）零样本语音合成

传统语音合成需大量目标说话人数据，门槛高。Muyan – TTS不同，它只需少量参考语音和文本，就能生成高质量语音。这一特性让语音合成不再受数据量限制，普通用户和小型企业也能轻松使用，大大拓宽了语音合成的应用范围。

（二）说话人适配

当下用户对语音个性化需求多样。Muyan – TTS通过少量目标说话人语音数据微调，可定制个性化语音。不管是甜美女声、沉稳男声，还是特殊风格语音，它都能精准实现，为用户带来符合期望的独特语音体验。

（三）快速生成

在快节奏的内容创作中，速度至关重要。Muyan – TTS合成速度惊人，0.33秒就能生成1秒音频。无论是实时场景还是批量生成，它都能快速响应，极大缩短了语音制作周期，显著提高了内容创作的效率。

（四）长内容连贯合成

传统TTS模型合成长篇内容时易出现衔接问题。Muyan – TTS凭借先进技术，能自然连贯地合成播客、有声书等长篇内容。它准确把握语义和情感，使语音在语速、语调、停顿上自然流畅，给听众带来良好的听觉享受。

（五）离线部署友好

在对数据安全要求高的场景，数据上传云端有风险。Muyan – TTS支持本地推理，可部署在本地设备。这样既能保证数据隐私，又能实现低延迟合成，快速响应用户需求，非常适合金融、医疗等领域。

四、应用场景

（一）播客和有声书

播客和有声书制作注重效率和质量。Muyan – TTS能高效生成内容，其合成语音自然连贯，能提升听众体验。创作者无需耗费大量时间精力录制，只需提供文本，就能快速获得高质量语音，提高创作产出。

（二）视频配音

视频行业发展快，对配音效率要求高。Muyan – TTS可快速合成英文脚本配音，并适配不同角色。通过调整音色、语调等参数，它能精准呈现角色特点，满足视频制作者高效、多样的配音需求。

（三）AI角色和语音助手

在智能设备中，AI角色和语音助手需有良好交互体验。Muyan – TTS可为其生成特色语音，根据角色性格定制语音风格。自然、个性化的语音能增强用户与设备的互动，让用户更亲近和认同设备。

（四）新闻播报

新闻讲究时效性，Muyan – TTS能高效将文本转语音。智能设备使用它可快速生成高质量新闻语音，满足新闻发布的时效要求。且其合成语音清晰准确、富有感染力，有助于提升新闻传播效果。

（五）教育和游戏

教育和游戏行业需要个性化语音提升体验。Muyan – TTS可生成教学语音，让课程更生动；也能生成游戏旁白，增添游戏氛围。它为教育和游戏提供了丰富多样的语音解决方案，提升了学习和娱乐的趣味性。

五、测评表现

（一）性能对比

在与CosyVoice2、Step-Audio、Spark-TTS、FireRedTTS和GPT-SoVITS v3等其他开源TTS模型的对比中，Muyan-TTS在合成速度上表现出色，仅需0.33秒即可生成1秒音频，是目前测试模型中最快的。在语音质量和自然度方面，Muyan-TTS也表现出色，其在LibriSpeech和SEED数据集上的测试结果显示，其在词错误率（WER）、说话人相似度（SIM）和平均意见得分（MOS）等指标上均达到了较高水平。

（二）零样本语音合成

在零样本语音合成测试中，Muyan-TTS在LibriSpeech测试集上取得了3.44%的WER，4.58的MOS和0.37的SIM，在SEED测试集上取得了4.09%的WER，4.32的MOS和0.41的SIM。这些结果表明，Muyan-TTS在语音合成的准确性和自然度方面具有很强的竞争力。

（三）监督微调（SFT）模型

通过在少量目标说话人数据上进行监督微调，Muyan-TTS-SFT在语音质量和说话人相似度方面进一步提升。在LibriSpeech测试集上，Muyan-TTS-SFT的WER为4.48%，MOS为4.97，SIM为0.46，相较于基础模型有显著提升。

六、快速使用

（一）环境准备

1. 克隆项目

git clone https://github.com/MYZY-AI/Muyan-TTS.gitcd Muyan-TTS

2. 创建并激活Python环境

conda create -n muyan-tts python=3.10 -yconda activate muyan-ttsmake build

3. 安装FFmpeg

如果使用Ubuntu系统，可以通过以下命令安装：

sudo apt updatesudo apt install ffmpeg

（二）模型下载

将Muyan-TTS、Muyan-TTS-SFT以及chinese-hubert-base模型下载到`pretrained_models`目录下，目录结构如下：

pretrained_models

├── chinese-hubert-base

├── Muyan-TTS

└── Muyan-TTS-SFT

（三）推理使用

以下是一个简单的推理代码示例：

async def main(model_type, model_path):  tts = Inference(model_type, model_path, enable_vllm_acc=False)  wavs = await tts.generate(    ref_wav_path="assets/Claire.wav",    prompt_text="Although the campaign was not a complete success, it did provide Napoleon with valuable experience and prestige.",    text="Welcome to the captivating world of podcasts, let's embark on this exciting journey together."  )  output_path = "logs/tts.wav"  with open(output_path, "wb") as f:    f.write(next(wavs))  print(f"Speech generated in {output_path}")

在使用时，需要指定`model_type`为`base`或`sft`，并提供参考语音路径`ref_wav_path`及其对应的文本`prompt_text`，以及需要合成的文本`text`。合成的语音将默认保存到`logs/tts.wav`。

（四）API使用

Muyan-TTS还支持API模式，通过以下命令启动服务：

# 启动API服务# 默认端口为8020python api.py

然后可以通过发送HTTP请求来调用API：

import timeimport requestsTTS_PORT = 8020payload = {    "ref_wav_path": "assets/Claire.wav",    "prompt_text": "Although the campaign was not a complete success, it did provide Napoleon with valuable experience and prestige.",    "text": "Welcome to the captivating world of podcasts, let's embark on this exciting journey together.",    "temperature": 0.6,    "speed": 1.0,}start = time.time()
url = f"http://localhost:{TTS_PORT}/get_tts"response = requests.post(url, json=payload)audio_file_path = "logs/tts.wav"with open(audio_file_path, "wb") as f:    f.write(response.content)
print(time.time() - start)

API模式下，Muyan-TTS会自动启用加速功能，进一步提高推理效率。

七、结语

Muyan-TTS作为一款开源的文本转语音模型，以其零样本语音合成能力、快速生成速度和强大的说话人适配功能，为播客、有声书、视频配音等多个领域提供了高效、高质量的语音合成解决方案。未来，随着技术的不断进步和社区的持续贡献，Muyan-TTS有望在更多领域发挥更大的作用，推动文本转语音技术的发展。

八、项目地址

GitHub仓库：https://github.com/MYZY-AI/Muyan-TTS

arxiv技术论文：https://arxiv.org/pdf/2504.19146

（文：小兵的AI视界）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Muyan-TTS：10万小时数据预训练，0.33秒极速生成播客级语音，小白也能玩转AI配音！

一、项目概述

二、技术架构

（一）框架设计

（二）数据处理

（三）预训练与微调

（四）解码器优化

（五）推理加速

三、主要功能

（一）零样本语音合成

（二）说话人适配

（三）快速生成

（四）长内容连贯合成

（五）离线部署友好

四、应用场景

（一）播客和有声书

（二）视频配音

（三）AI角色和语音助手

（四）新闻播报

（五）教育和游戏

五、测评表现

（一）性能对比

（二）零样本语音合成

（三）监督微调（SFT）模型

六、快速使用

（一）环境准备

（二）模型下载

（三）推理使用

（四）API使用

七、结语

八、项目地址

发表评论取消回复

一、项目概述

二、技术架构

（一）框架设计

（二）数据处理

（三）预训练与微调

（四）解码器优化

（五）推理加速

三、主要功能

（一）零样本语音合成

（二）说话人适配

（三）快速生成

（四）长内容连贯合成

（五）离线部署友好

四、应用场景

（一）播客和有声书

（二）视频配音

（三）AI角色和语音助手

（四）新闻播报

（五）教育和游戏

五、测评表现

（一）性能对比

（二）零样本语音合成

（三）监督微调（SFT）模型

六、快速使用

（一）环境准备

（二）模型下载

（三）推理使用

（四）API使用

七、结语

八、项目地址

发表评论 取消回复

发表评论取消回复