清华大学推出Dolphin语音识别模型！专攻40种东方语言，方言识别准确率提升54%！

近年来，自动语音识别（ASR）技术已经进入了一个“百模大战”的时代，尤其是 Whisper 让许多人看到了高质量通用语音识别的可能性。

然而，Whisper 等主流模型在支持多语言的同时，也面临着一个痛点：它们的优化往往偏向英语或西方语言，对于东方语言，特别是复杂的汉语方言和少数民族语言，识别效果并不尽如人意。

最近，清华大学和海天瑞声联手开源的 Dolphin 语音识别模型，给语音识别领域带来了一些不一样的东西。

Dolphin 这款新模型，是专门为东方语言设计的 ASR 模型，不仅支持 40 种东方语言和 22 种汉语方言，更是以轻量级的设计和极高的精准度，在多个维度上直接“碾压”Whisper large v3。

基于超过 2100 万小时的训练数据（包括 740 万小时开源数据），在支持多语言、多方言的同时保持了极高的精度和效率。

Dolphin 的亮点在于轻量化和多功能性。目前开源了两个版本：base 和 small，其中 small 版仅为 Whisper large v3 的 1/4 大小，却在平均字错率（WER）上降低 54.1%。

技术背景

目前，许多主流 ASR 模型（如 Whisper）虽然标榜支持多语言，但实际上在东方语言的处理上存在几个明显的问题：汉语方言适配差、语种覆盖不均衡、语音环境复杂。

Dolphin 直接针对这些问题进行了优化，尤其是对汉语方言进行了深度适配，同时支持语音活动检测、音频分割和语言识别。

功能亮点

• 轻量高效：small 版模型大小仅为 Whisper large v3 的 1/4，参数更少，推理更快。
• 超多语言支持：支持 40 种东方语言和 22 种汉语方言，覆盖广泛。
• 多任务能力：支持语音活动检测、音频分割、语言识别等功能。
• 创新架构：采用两级语言标记系统，基于 E-Branchformer 和 Transformer，专为 ASR 任务精调。

快速使用

目前 Dolphin 提供 base 版和 small 版两个基础版本，可以根据需求选择适合的模型。

安装部署 Dolphin 非常简单，开发者可以直接在 Python 环境中使用：

pip install -U dataoceanai-dolphin

但还需要一个主流的音视频处理工具：ffmpeg，以下各系统一键下载安装命令：

# Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg

# MacOS
brew install ffmpeg

# Windows
choco install ffmpeg

命令行使用方式：

dolphin audio.wav

# Download model and specify the model path
dolphin audio.wav --model small --model_dir /data/models/dolphin/

# Specify language and region
dolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN"

# padding speech to 30 seconds
dolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN" --padding_speech true

python 代码示例：

import dolphin

waveform = dolphin.load_audio("audio.wav")
model = dolphin.load_model("small", "/data/models/dolphin", "cuda")
result = model(waveform)
# Specify language and region
result = model(waveform, lang_sym="zh", region_sym="CN")
print(result.text)

写在最后

Dolphin 的发布，毫无疑问为 ASR 领域带来了新鲜血液。

它不仅精准度超越了 Whisper large v3，还在计算资源占用、语种支持等方面展现出独特优势，特别是针对东方语言的优化，让它成为一个极具竞争力的语音识别方案。

当然，Dolphin 仍处于早期阶段，它未来是否能形成完整的生态，还需要更多开发者的参与。但它轻量化、多语言、东方特色等特性还是很让人眼前一亮的。

GitHub 项目地址：https://github.com/DataoceanAI/Dolphin

HF 模型地址：https://huggingface.co/DataoceanAI

● 一款改变你视频下载体验的神器：MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐（2023版）

● Star 50.3k！超棒的国产远程桌面开源应用火了！

● 超牛的AI物理引擎项目，刚开源不到一天，就飙升到超9K Star！突破物理仿真极限！

（文：开源星探）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

技术背景

功能亮点

快速使用

写在最后

发表评论 取消回复

发表评论取消回复