在需要高质量语音合成的场景中,第三方API(如ElevenLabs)不仅成本高昂,还可能带来隐私泄露风险,而直接部署开源模型往往配置复杂。
开源TTS与自托管的兴起,可以帮助我们很好的解决这一大痛点!
一款由devnen团队开源的TTS语音服务项目:Chatterbox-TTS-Server,可以帮助绝大多数人简单、高效的运行自己的TTS语音服务。

它是基于Resemble AI的Chatterbox TTS模型打造的开源自托管语音合成服务器,实际是一个开源FastAPI服务器,提供了直观的Web界面、OpenAI兼容API和强大的声音克隆功能,支持GPU加速和Docker部署。
功能亮点
-
• 自带 Web UI 界面:现代Web界面,支持文本输入、参数调优,直观易用。 -
• 声音克隆:可上传参考音频,生成相似语音声音。 -
• 预定义声音库:多种高质量合成声音可选,固定seed确保一致性。 -
• 智能长文本处理:自动按句子分块,逐块生成音频并无缝拼接,突破单次生成限制。 -
• OpenAI兼容API:tts端点兼容OpenAI格式,轻松集成到现有项目。 -
• GPU加速:支持CUDA,RTX 3090生成实时或更快。 -
• Docker部署:一键Compose部署,容器化支持云端/本地。
安装与部署
Chatterbox-TTS-Server 的安装同大部分开源项目一样,只需要按照固定步骤进行即可。
前提:准备好相应的硬件条件及Python环境。
① 下载项目
git clone https://github.com/devnen/Chatterbox-TTS-Server.git
cd Chatterbox-TTS-Server
② 创建虚拟环境
# windows
python -m venv venv
.\venv\Scripts\activate
# linux
python3 -m venv venv
source venv/bin/activate
③ 安装依赖
# 适合无GPU的硬件环境
pip install --upgrade pip
pip install -r requirements.txt
# 适合拥有英伟达GPU的硬件环境
pip install --upgrade pip
pip install -r requirements-nvidia.txt
# 适合拥有AMD GPU的硬件环境
pip install --upgrade pip
pip install -r requirements-rocm.txt
拥有英伟达GPU的环境,执行完以上步骤,可以使用下面的命令验证下:
python -c "import torch; print(f'PyTorch version: {torch.__version__}'); print(f'CUDA available: {torch.cuda.is_available()}'); print(f'Device name: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else None}')"
如果 CUDA 可用: 显示 True,则你的设置正确!
同理,拥有AMD GPU环境的,可以执行以下命令验证:
python -c "import torch; print(f'PyTorch version: {torch.__version__}'); print(f'ROCm available: {torch.cuda.is_available()}'); print(f'Device name: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else None}')"
如果ROCm可用:显示True,则你的设置正确!
同时该项目也提供了Google Colab演示脚本,及详细的Docker部署方法,详情指南可以在项目Readme文档下查看。

适用场景
Chatterbox TTS Server的隐私保护和强大功能让它适用于多种场景:
-
• 网站文章朗读:将博客文章转为音频,提升用户体验。 -
• 播客生成:克隆声音生成单人播客,节省录制成本。 -
• 语音助手:自建隐私安全的AI客服,适配企业。 -
• Audiobook制作:长文本分块生成有声书,质量稳定。 -
• 教育内容:生成教学音频,支持多声音风格。
这些场景解决了一个核心痛点:API成本高、隐私风险、部署难。
写在最后
Chatterbox-TTS-Server 以其强大的Chatterbox TTS模型、Web UI、OpenAI兼容API和GPU加速,为自托管语音合成提供了高效、隐私安全的解决方案。
它基于0.5B参数Chatterbox,媲美ElevenLabs,提供Web UI、声音克隆、长文本处理、OpenAI API,3秒可生成百字符音频。
无论是生成有声书、为AI助手配音,还是创作情感丰富的音频内容,它都值得成为AI开发者的尝试选项。
GitHub 项目地址:https://github.com/devnen/Chatterbox-TTS-Server

● 一款改变你视频下载体验的神器:MediaGo
● 字节把 Coze 核心开源了!可视化工作流引擎 FlowGram 上线,AI 赋能可视化流程!
● 英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!
● 开发者的文档收割机来了!这个开源工具让你一小时干完一周的活!
● PDF文档解剖术!OCR神器+1,这个开源工具把复杂排版秒变结构化数据!

(文:开源星探)