开源播客TTS神器！高效TTS模型：Muyan-TTS，0.33秒生成1秒音频，零样本语音合成！

给大家介绍一款新发布的开源 TTS 模型：Muyan-TTS，专为播客场景设计的开源文本转语音（TTS）模型。

它以超低延迟（0.33秒生成1秒音频）实现零样本语音合成，预训练10万+小时播客数据，支持长篇内容的高连贯性生成。

是一个特别适合播客、有声书或长视频场景的高效 TTS 模型。

主要特点

• 快速生成：约 0.33 秒生成 1 秒音频，适合批量生成长语音内容；
• 说话人适配：支持自定义说话人，进行个性化语音定制；
• 支持长内容连贯合成：无需打断，可自然连续地朗读 5 分钟甚至更长文本；
• 离线部署友好：Hugging Face 提供模型权重，支持本地推理。

快速使用

Muyan-TTS支持本地部署，需Python和GPU环境。以下是详细步骤：

依赖：需要本地安装 FFmpeg 工具。

① 克隆项目

git clone https://github.com/MYZY-AI/Muyan-TTS.git
cd Muyan-TTS

② 创建虚拟环境并编译项目

conda create -n muyan-tts python=3.10 -y
conda activate muyan-tts
make build

③ 下载模型

huggingface-cli download MYZY-AI/Muyan-TTS --local-dir ./models

然后运行 python tts.py 即可快速使用。

核心代码如下：

async def main(model_type, model_path):
    tts = Inference(model_type, model_path, enable_vllm_acc=False)
    wavs = await tts.generate(
        ref_wav_path="assets/Claire.wav",
        prompt_text="Although the campaign was not a complete success, it did provide Napoleon with valuable experience and prestige.",
        text="Welcome to the captivating world of podcasts, let's embark on this exciting journey together."
    )
    output_path = "logs/tts.wav"
    with open(output_path, "wb") as f:
        f.write(next(wavs))  
    print(f"Speech generated in {output_path}")

需要指定提示语，包括 ref_wav_path 及其 prompt_text，以及要合成的 text。默认情况下，合成的语音保存到 logs/tts.wav。

当你将 model_type 指定为 base 时，可以更改提示语音，使其适用于任意说话人进行零样本TTS合成。

当你将 model_type 指定为 sft 时，需要保持提示语不变，因为sft模型是在Claire的声音上训练的。

同时还可以进行 API 方式的使用：

python api.py

使用 API 模式会自动启用 vLLM 加速，上述命令将在默认端口 8020 上启动服务。

同样，需要将 model_type 指定为 base 或 sft，默认值为 base。需要注意的是，model_path应与你指定的model_type一致。

API使用示例：

import time
import requests
TTS_PORT=8020
payload = {
    "ref_wav_path": "assets/Claire.wav",
    "prompt_text": "Although the campaign was not a complete success, it did provide Napoleon with valuable experience and prestige.",
    "text": "Welcome to the captivating world of podcasts, let's embark on this exciting journey together.",
    "temperature": 0.6,
    "speed": 1.0,
}
start = time.time()

url = f"http://localhost:{TTS_PORT}/get_tts"
response = requests.post(url, json=payload)
audio_file_path = "logs/tts.wav"
with open(audio_file_path, "wb") as f:
    f.write(response.content)
    
print(time.time() - start)

适用场景

• 播客语音生成：长段文字自然合成，节奏、语气稳定
• 有声书自动生成：可一次性生成整章内容，支持语音风格控制
• 英文视频配音：快速合成英文脚本，适配角色声音
• AI 角色朗读：零样本克隆任意声音，生成特色人物对话
• 自动新闻播报：文本转语音+语速控制，适合智能音箱或语音 UI

写在最后

Muyan-TTS 是一个新开源的、可训练的 TTS 模型，专为播客场景设计出来的。

虽然目前仅支持英文，但其零样本适配 + 快速合成 + 长文本能力也毋庸置疑。如果你正在做播客剪辑、有声书录制、AI 视频生成，Muyan-TTS 也会是你不可错过的开源新选择！

GitHub 开源地址：https://github.com/MYZY-AI/Muyan-TTS

HF 模型地址：https://huggingface.co/MYZY-AI/Muyan-TTS

● 一款改变你视频下载体验的神器：MediaGo

● 字节把 Coze 核心开源了！可视化工作流引擎 FlowGram 上线，AI 赋能可视化流程！

● 英伟达开源语音识别模型！0.6B 参数登顶 ASR 榜单，1 秒转录 60 分钟音频！

● 开发者的文档收割机来了！这个开源工具让你一小时干完一周的活！

● PDF文档解剖术！OCR神器+1，这个开源工具把复杂排版秒变结构化数据！

（文：开源星探）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

主要特点

快速使用

适用场景

写在最后

发表评论 取消回复

发表评论取消回复