支持40种东方语言和22种汉语方言!清华大学开源自动语音识别模型Dolphin

项目简介

Dolphin 是由 Dataocean AI 和清华大学合作开发的多语言、多任务语音识别模型。它支持东亚、南亚、东南亚和中东的 40 种东方语言，同时支持 22 种汉语方言。该模型在超过 210,000 小时的数据上进行训练，包括 DataoceanAI 的专有数据集和开源数据集。该模型可以执行语音识别、语音活动检测（VAD）、分割和语言识别（LID）。

small版本与Whisper large v3相比，平均WER降低54.1%，模型大小只有Whisper large v3的约1/4 除了语音识别，还能进行语音活动检测、音频分割以及语言识别目前开源了两个基础版本，一个base版，一个small版

方法
Dolphin 主要遵循 Whisper 和 OWSM 的创新设计方法。采用基于 E-Branchformer 的编码器和基于标准 Transformer 的解码器的联合 CTC-Attention 架构。针对 ASR 的特定关注，引入了几个关键修改。Dolphin 不支持翻译任务，并消除了对先前文本及其相关标记的使用。

在 Dolphin 中，引入了二级语言标记系统，以更好地处理语言和区域多样性，尤其是在 Dataocean AI 数据集中。第一个标记指定语言（例如， <zh> ， <ja> ），而第二个标记表示区域（例如， <CN> ， <JP> ）。详细信息请参阅论文。

设置
Dolphin 需要 FFmpeg 将音频文件转换为 WAV 格式。如果您的系统上未安装 FFmpeg，请先安装它：

# Ubuntu or Debiansudo apt update && sudo apt install ffmpeg
# MacOSbrew install ffmpeg
# Windowschoco install ffmpeg

您可以使用以下命令安装 Dolphin 的最新版本：

pip install -U dataoceanai-dolphin

可用模型和语言

模型
Dolphin 中共有 4 个模型，其中 2 个现在可用。详见论文详情。

Model	Parameters 参数	Average WER 平均词错误率	Publicly Available 公开可用
base 基础	140 M	33.3	✅
small 小型	372 M	25.2	✅
medium 中等	910 M 910 兆	23.1
large 大型	1679 M	21.6

语言

Dolphin 支持 40 种东方语言和 22 种汉语方言。支持的语言完整列表请参阅 languages.md。

使用说明

命令行使用

dolphin audio.wav
# Download model and specify the model pathdolphin audio.wav --model small --model_dir /data/models/dolphin/
# Specify language and regiondolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN"
# padding speech to 30 secondsdolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN" --padding_speech true

Python 使用

import dolphin
waveform = dolphin.load_audio("audio.wav")model = dolphin.load_model("small", "/data/models/dolphin", "cuda")result = model(waveform)# Specify language and regionresult = model(waveform, lang_sym="zh", region_sym="CN")print(result.text)

项目链接

https://github.com/DataoceanAI/Dolphin

https://huggingface.co/DataoceanAI

扫码加入技术交流群，备注「开发语言-城市-昵称」

（文：GitHubStore）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

项目简介

设置Dolphin 需要 FFmpeg 将音频文件转换为 WAV 格式。如果您的系统上未安装 FFmpeg，请先安装它：

可用模型和语言

模型Dolphin 中共有 4 个模型，其中 2 个现在可用。详见论文详情。

语言

使用说明

命令行使用

Python 使用

项目链接

发表评论 取消回复

下载每时AI手机APP

设置
Dolphin 需要 FFmpeg 将音频文件转换为 WAV 格式。如果您的系统上未安装 FFmpeg，请先安装它：

模型
Dolphin 中共有 4 个模型，其中 2 个现在可用。详见论文详情。

发表评论取消回复