在文本转语音(TTS)领域,轻量化和高质量往往难以兼得,而字节跳动最新开源的 MegaTTS3 是可以实现两者兼得的优秀TTS模型之一。

MegaTTS3 作为字节跳动的最新力作,参数仅为 0.45B。它不仅能在普通设备上流畅运行,还能生成自然、逼真的语音,支持中英文混合场景和灵活的口音控制。
未来还将带来更细粒度的发音与时长调整。这款工具的开源发布,为用户提供了低门槛、高质量的 TTS 解决方案,堪称语音合成领域的“轻量之王”。
核心功能
-
• 高效轻量级 TTS:仅 0.45B(4.5 亿)参数,相比大规模 TTS 模型,更轻量、更易部署。 -
• 高质量语音克隆:可模拟目标说话人的音色、语气、节奏,生成高度拟真的合成语音。 -
• 中英文混合更自然:解决“英式腔调 vs. 美式腔调”不自然切换问题,让不同语言的切换更丝滑。 -
• 口音强度控制:允许调整口音强度,让用户根据需要选择更偏母语或更偏目标语言的发音方式。
快速使用
MegaTTS3 的安装和使用过程简单,支持 Python 环境部署。
① 克隆项目
git clone https://github.com/bytedance/MegaTTS3.git
cd MegaTTS3
② 创建Python虚拟环境
conda create -n megatts3-env python=3.9
conda activate megatts3-env
③ 安装依赖
pip install -r requirements.txt
④ 下载模型
从 Google Drive 或 Hugging Face 获取预训练模型,放入 ./checkpoints/。
使用方法如下:
基本推理:
CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav "sample.wav" --input_text "这是一段测试语音。" --output_dir ./gen
调整口音:
CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav "english.wav" --input_text "这是一条标准发音。" --output_dir ./gen --p_w 2.5 --t_w 2.5
Web界面,启用Gradio:
CUDA_VISIBLE_DEVICES=0 python tts/gradio_api.py
提示:更多用法(如 CPU 推理)见 GitHub 文档,几分钟即可生成你的第一段语音。
写在最后
MegaTTS3 是字节跳动在 TTS 领域的一次轻量化突破,它以小身躯展现了大能量。
0.45B 参数轻量高效,硬件要求低,并且支持高质量零样本生成,音色逼真。还强化了中英文混合,口音可控。
尽管目前细粒度调整尚未上线,但其现有能力已足够惊艳。如果你需要一款轻便又强大的 TTS 工具,不妨部署试试 MegaTTS3。
GitHub 项目地址:https://github.com/bytedance/MegaTTS3
HF 模型:https://huggingface.co/ByteDance/MegaTTS3

● 一款改变你视频下载体验的神器:MediaGo
● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star
● 最新最全 VSCODE 插件推荐(2023版)
● Star 50.3k!超棒的国产远程桌面开源应用火了!
● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!

(文:开源星探)