字节开源MegaTTS3：0.45B参数实现高保真语音克隆，中英文混合无缝切换。

在文本转语音（TTS）领域，轻量化和高质量往往难以兼得，而字节跳动最新开源的 MegaTTS3 是可以实现两者兼得的优秀TTS模型之一。

MegaTTS3 作为字节跳动的最新力作，参数仅为 0.45B。它不仅能在普通设备上流畅运行，还能生成自然、逼真的语音，支持中英文混合场景和灵活的口音控制。

未来还将带来更细粒度的发音与时长调整。这款工具的开源发布，为用户提供了低门槛、高质量的 TTS 解决方案，堪称语音合成领域的“轻量之王”。

MegaTTS3 的安装和使用过程简单，支持 Python 环境部署。

① 克隆项目

git clone https://github.com/bytedance/MegaTTS3.git
cd MegaTTS3

② 创建Python虚拟环境

conda create -n megatts3-env python=3.9
conda activate megatts3-env

③ 安装依赖

pip install -r requirements.txt

④ 下载模型
从 Google Drive 或 Hugging Face 获取预训练模型，放入 ./checkpoints/。

使用方法如下：

基本推理：

CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav "sample.wav" --input_text "这是一段测试语音。" --output_dir ./gen

调整口音：

CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav "english.wav" --input_text "这是一条标准发音。" --output_dir ./gen --p_w 2.5 --t_w 2.5

Web界面，启用Gradio：

CUDA_VISIBLE_DEVICES=0 python tts/gradio_api.py

提示：更多用法（如 CPU 推理）见 GitHub 文档，几分钟即可生成你的第一段语音。

MegaTTS3 是字节跳动在 TTS 领域的一次轻量化突破，它以小身躯展现了大能量。

0.45B 参数轻量高效，硬件要求低，并且支持高质量零样本生成，音色逼真。还强化了中英文混合，口音可控。

尽管目前细粒度调整尚未上线，但其现有能力已足够惊艳。如果你需要一款轻便又强大的 TTS 工具，不妨部署试试 MegaTTS3。

GitHub 项目地址：https://github.com/bytedance/MegaTTS3

HF 模型：https://huggingface.co/ByteDance/MegaTTS3

● 一款改变你视频下载体验的神器：MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐（2023版）

● Star 50.3k！超棒的国产远程桌面开源应用火了！

● 超牛的AI物理引擎项目，刚开源不到一天，就飙升到超9K Star！突破物理仿真极限！

（文：开源星探）