近年来,自动语音识别(ASR)技术已经进入了一个“百模大战”的时代,尤其是 Whisper 让许多人看到了高质量通用语音识别的可能性。
然而,Whisper 等主流模型在支持多语言的同时,也面临着一个痛点:它们的优化往往偏向英语或西方语言,对于东方语言,特别是复杂的汉语方言和少数民族语言,识别效果并不尽如人意。
最近,清华大学和海天瑞声联手开源的 Dolphin 语音识别模型,给语音识别领域带来了一些不一样的东西。
Dolphin 这款新模型,是专门为东方语言设计的 ASR 模型,不仅支持 40 种东方语言 和 22 种汉语方言,更是以轻量级的设计和极高的精准度,在多个维度上直接“碾压”Whisper large v3。
基于超过 2100 万小时的训练数据(包括 740 万小时开源数据),在支持多语言、多方言的同时保持了极高的精度和效率。
Dolphin 的亮点在于轻量化和多功能性。目前开源了两个版本:base 和 small,其中 small 版仅为 Whisper large v3 的 1/4 大小,却在平均字错率(WER)上降低 54.1%。
技术背景
目前,许多主流 ASR 模型(如 Whisper)虽然标榜支持多语言,但实际上在东方语言的处理上存在几个明显的问题:汉语方言适配差、语种覆盖不均衡、语音环境复杂。
Dolphin 直接针对这些问题进行了优化,尤其是对 汉语方言 进行了深度适配,同时支持 语音活动检测、音频分割和语言识别。
功能亮点
-
• 轻量高效:small 版模型大小仅为 Whisper large v3 的 1/4,参数更少,推理更快。 -
• 超多语言支持:支持 40 种东方语言和 22 种汉语方言,覆盖广泛。 -
• 多任务能力:支持语音活动检测、音频分割、语言识别等功能。 -
• 创新架构:采用两级语言标记系统,基于 E-Branchformer 和 Transformer,专为 ASR 任务精调。
快速使用
目前 Dolphin 提供 base 版 和 small 版 两个基础版本,可以根据需求选择适合的模型。
安装部署 Dolphin 非常简单,开发者可以直接在 Python 环境中使用:
pip install -U dataoceanai-dolphin
但还需要一个主流的音视频处理工具:ffmpeg,以下各系统一键下载安装命令:
# Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg
# MacOS
brew install ffmpeg
# Windows
choco install ffmpeg
命令行使用方式:
dolphin audio.wav
# Download model and specify the model path
dolphin audio.wav --model small --model_dir /data/models/dolphin/
# Specify language and region
dolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN"
# padding speech to 30 seconds
dolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN" --padding_speech true
python 代码示例:
import dolphin
waveform = dolphin.load_audio("audio.wav")
model = dolphin.load_model("small", "/data/models/dolphin", "cuda")
result = model(waveform)
# Specify language and region
result = model(waveform, lang_sym="zh", region_sym="CN")
print(result.text)
写在最后
Dolphin 的发布,毫无疑问为 ASR 领域带来了新鲜血液。
它不仅精准度超越了 Whisper large v3,还在计算资源占用、语种支持等方面展现出独特优势,特别是针对东方语言的优化,让它成为一个极具竞争力的语音识别方案。
当然,Dolphin 仍处于早期阶段,它未来是否能形成完整的生态,还需要更多开发者的参与。但它轻量化、多语言、东方特色等特性还是很让人眼前一亮的。
GitHub 项目地址:https://github.com/DataoceanAI/Dolphin
HF 模型地址:https://huggingface.co/DataoceanAI

● 一款改变你视频下载体验的神器:MediaGo
● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star
● 最新最全 VSCODE 插件推荐(2023版)
● Star 50.3k!超棒的国产远程桌面开源应用火了!
● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!

(文:开源星探)