不知道大家在AI语音最早期的时候,是否听过机械式的AI语音。
有声书朗读平淡如水,客服语音僵硬如机器人,虚拟偶像的歌声总是缺少情感起伏……传统TTS技术在这些需要情绪张力的场景中频频露怯。
随着 AI 技术发展的越来越迅速,AI 语音合成领域也涌现出了一大批具备情感、语气变化、自然停顿的TTS模型工具。
之前也写过好几篇文章介绍过,具备超强情感及语气控制的开源TTS工具(有兴趣的可以在TTS合集里查看以往文章)。
今天则为大家带来一款新开源的 TTS 模型:CSM。
它是由 Sesame 最新开源的对话式语音模型,一个基于 Transformer 的端到端语音生成模型,能够真正理解上下文信息,生成自然、富有情感的 AI 语音。
CSM-1B 是其开源版本,拥有 10 亿参数,基于 Transformer 架构,结合了 Llama 模型作为语言处理骨干,以及一个专门的音频解码器生成 Mimi 音频编码。
这种独特的端到端设计让 CSM 能够同时处理文本和音频输入,生成带有上下文情感的语音。
开源截止昨晚,在 GitHub 上就有了 8K Star!而且整个项目就只有3个Python文件。

核心能力
-
• 高保真语音效果:带有自然的语气、音调变化,告别机器人感。 -
• 端到端 Transformer 语音生成:直接从文本/音频输入生成语音,推理速度远超传统TTS。 -
• 上下文理解:能结合上下文信息,使得语音语调更符合逻辑,更加自然流畅。 -
• 实时语音生成:支持实时语音生成,适用于 直播、语音助手、AI 语音交互。 -
• 语气情感控制:可调节语气、语调、节奏、情绪。
快速使用
CSM 的安装和使用过程并不复杂,而且还在 HF 上可直接体验的在线Demo。

HuggingFace 地址:
https://huggingface.co/spaces/sesame/csm-1b
以下是详细安装使用步骤,帮助你快速体验这款模型:
① 克隆 GitHub 仓库
git clone git@github.com:SesameAILabs/csm.git
cd csm
② 创建虚拟环境
python3.10 -m venv .venv
source .venv/bin/activate # Linux/macOS
.venv\Scripts\activate # Windows
③ 安装依赖
pip install -r requirements.txt
④ 下载模型文件
from huggingface_hub import hf_hub_download
model_path = hf_hub_download(repo_id="sesame/csm-1b", filename="ckpt.pt")
⑤ 使用
简单的生成
from generator import load_csm_1b
import torchaudio
generator = load_csm_1b(model_path, "cuda") # 使用 GPU
audio = generator.generate(
text="Hello from Sesame.",
speaker=0,
context=[],
max_audio_length_ms=10000
)
torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)
带上下文生成
segments = [
Segment(text="Hey, how are you?", speaker=0, audio=load_audio("sample.wav"))
]
audio = generator.generate(
text="I'm doing great, thanks!",
speaker=1,
context=segments,
max_audio_length_ms=10000
)
torchaudio.save("response.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)
只需几行代码,你就能听到 CSM 生成的自然语音。(更多示例可参考 GitHub 文档。)
写在最后
Sesame CSM 作为一款端到端 Transformer 语音生成模型,可让 AI 语音更加自然、富有情感,远超传统 TTS!
其 3 大核心优势:上下文理解 + 端到端生成、情感语调调节、实时语音生成,都可让 AI 语音合成更接近 真人演讲、配音,是目前效果挺不错的 Transformer 语音生成解决方案之一!
不过由于当前版本主要针对英语训练,对其他语言会存在不友好的情况。
如果你对语音合成感兴趣,或者需要一个强大的 TTS 工具,可以试试 CSM。
GitHub 项目地址:https://github.com/SesameAILabs/csm

● 一款改变你视频下载体验的神器:MediaGo
● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star
● 最新最全 VSCODE 插件推荐(2023版)
● Star 50.3k!超棒的国产远程桌面开源应用火了!
● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!

(文:开源星探)