字节开源MegaTTS3:0.45B参数实现高保真语音克隆,中英文混合无缝切换。

 

在文本转语音(TTS)领域,轻量化和高质量往往难以兼得,而字节跳动最新开源的 MegaTTS3 是可以实现两者兼得的优秀TTS模型之一。

MegaTTS3 作为字节跳动的最新力作,参数仅为 0.45B。它不仅能在普通设备上流畅运行,还能生成自然、逼真的语音,支持中英文混合场景和灵活的口音控制。

未来还将带来更细粒度的发音与时长调整。这款工具的开源发布,为用户提供了低门槛、高质量的 TTS 解决方案,堪称语音合成领域的“轻量之王”。

核心功能

  • • 高效轻量级 TTS:仅 0.45B(4.5 亿)参数,相比大规模 TTS 模型,更轻量、更易部署。
  • • 高质量语音克隆:可模拟目标说话人的音色、语气、节奏,生成高度拟真的合成语音。
  • • 中英文混合更自然:解决“英式腔调 vs. 美式腔调”不自然切换问题,让不同语言的切换更丝滑。
  • • 口音强度控制:允许调整口音强度,让用户根据需要选择更偏母语或更偏目标语言的发音方式。

快速使用

MegaTTS3 的安装和使用过程简单,支持 Python 环境部署。

① 克隆项目

git clone https://github.com/bytedance/MegaTTS3.git
cd MegaTTS3

② 创建Python虚拟环境

conda create -n megatts3-env python=3.9
conda activate megatts3-env

③ 安装依赖

pip install -r requirements.txt

④ 下载模型
从 Google Drive 或 Hugging Face 获取预训练模型,放入 ./checkpoints/。

使用方法如下:

基本推理:

CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav "sample.wav" --input_text "这是一段测试语音。" --output_dir ./gen

调整口音:

CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav "english.wav" --input_text "这是一条标准发音。" --output_dir ./gen --p_w 2.5 --t_w 2.5

Web界面,启用Gradio:

CUDA_VISIBLE_DEVICES=0 python tts/gradio_api.py

提示:更多用法(如 CPU 推理)见 GitHub 文档,几分钟即可生成你的第一段语音。

写在最后

MegaTTS3 是字节跳动在 TTS 领域的一次轻量化突破,它以小身躯展现了大能量。

0.45B 参数轻量高效,硬件要求低,并且支持高质量零样本生成,音色逼真。还强化了中英文混合,口音可控。

尽管目前细粒度调整尚未上线,但其现有能力已足够惊艳。如果你需要一款轻便又强大的 TTS 工具,不妨部署试试 MegaTTS3。

GitHub 项目地址:https://github.com/bytedance/MegaTTS3

HF 模型:https://huggingface.co/ByteDance/MegaTTS3

● 一款改变你视频下载体验的神器:MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐(2023版)

● Star 50.3k!超棒的国产远程桌面开源应用火了!

● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!








(文:开源星探)

欢迎分享

发表评论