AI语音合成新标杆！开源10小时斩获8K Star！1B参数实现电影级人声!

不知道大家在AI语音最早期的时候，是否听过机械式的AI语音。

有声书朗读平淡如水，客服语音僵硬如机器人，虚拟偶像的歌声总是缺少情感起伏……传统TTS技术在这些需要情绪张力的场景中频频露怯。

随着 AI 技术发展的越来越迅速，AI 语音合成领域也涌现出了一大批具备情感、语气变化、自然停顿的TTS模型工具。

之前也写过好几篇文章介绍过，具备超强情感及语气控制的开源TTS工具（有兴趣的可以在TTS合集里查看以往文章）。

今天则为大家带来一款新开源的 TTS 模型：CSM。

它是由 Sesame 最新开源的对话式语音模型，一个基于 Transformer 的端到端语音生成模型，能够真正理解上下文信息，生成自然、富有情感的 AI 语音。

CSM-1B 是其开源版本，拥有 10 亿参数，基于 Transformer 架构，结合了 Llama 模型作为语言处理骨干，以及一个专门的音频解码器生成 Mimi 音频编码。

这种独特的端到端设计让 CSM 能够同时处理文本和音频输入，生成带有上下文情感的语音。

开源截止昨晚，在 GitHub 上就有了 8K Star！而且整个项目就只有3个Python文件。

核心能力

• 高保真语音效果：带有自然的语气、音调变化，告别机器人感。
• 端到端 Transformer 语音生成：直接从文本/音频输入生成语音，推理速度远超传统TTS。
• 上下文理解：能结合上下文信息，使得语音语调更符合逻辑，更加自然流畅。
• 实时语音生成：支持实时语音生成，适用于直播、语音助手、AI 语音交互。
• 语气情感控制：可调节语气、语调、节奏、情绪。

快速使用

CSM 的安装和使用过程并不复杂，而且还在 HF 上可直接体验的在线Demo。

HuggingFace 地址：
https://huggingface.co/spaces/sesame/csm-1b

以下是详细安装使用步骤，帮助你快速体验这款模型：

① 克隆 GitHub 仓库

git clone git@github.com:SesameAILabs/csm.git
cd csm

② 创建虚拟环境

python3.10 -m venv .venv
source .venv/bin/activate  # Linux/macOS
.venv\Scripts\activate    # Windows

③ 安装依赖

pip install -r requirements.txt

④ 下载模型文件

from huggingface_hub import hf_hub_download
model_path = hf_hub_download(repo_id="sesame/csm-1b", filename="ckpt.pt")

⑤ 使用

简单的生成

from generator import load_csm_1b
import torchaudio

generator = load_csm_1b(model_path, "cuda")  # 使用 GPU
audio = generator.generate(
    text="Hello from Sesame.",
    speaker=0,
    context=[],
    max_audio_length_ms=10000
)
torchaudio.save("audio.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

带上下文生成

segments = [
    Segment(text="Hey, how are you?", speaker=0, audio=load_audio("sample.wav"))
]
audio = generator.generate(
    text="I'm doing great, thanks!",
    speaker=1,
    context=segments,
    max_audio_length_ms=10000
)
torchaudio.save("response.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

只需几行代码，你就能听到 CSM 生成的自然语音。(更多示例可参考 GitHub 文档。)

写在最后

Sesame CSM 作为一款端到端 Transformer 语音生成模型，可让 AI 语音更加自然、富有情感，远超传统 TTS！

其 3 大核心优势：上下文理解 + 端到端生成、情感语调调节、实时语音生成，都可让 AI 语音合成更接近真人演讲、配音，是目前效果挺不错的 Transformer 语音生成解决方案之一！

不过由于当前版本主要针对英语训练，对其他语言会存在不友好的情况。

如果你对语音合成感兴趣，或者需要一个强大的 TTS 工具，可以试试 CSM。

GitHub 项目地址：https://github.com/SesameAILabs/csm

● 一款改变你视频下载体验的神器：MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐（2023版）

● Star 50.3k！超棒的国产远程桌面开源应用火了！

● 超牛的AI物理引擎项目，刚开源不到一天，就飙升到超9K Star！突破物理仿真极限！

（文：开源星探）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

核心能力

快速使用

写在最后

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复