项目简介
方法
Dolphin 主要遵循 Whisper 和 OWSM 的创新设计方法。采用基于 E-Branchformer 的编码器和基于标准 Transformer 的解码器的联合 CTC-Attention 架构。针对 ASR 的特定关注,引入了几个关键修改。Dolphin 不支持翻译任务,并消除了对先前文本及其相关标记的使用。
在 Dolphin 中,引入了二级语言标记系统,以更好地处理语言和区域多样性,尤其是在 Dataocean AI 数据集中。第一个标记指定语言(例如, <zh>
, <ja>
),而第二个标记表示区域(例如, <CN>
, <JP>
)。详细信息请参阅论文。
设置
Dolphin 需要 FFmpeg 将音频文件转换为 WAV 格式。如果您的系统上未安装 FFmpeg,请先安装它:
# Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg
# MacOS
brew install ffmpeg
# Windows
choco install ffmpeg
您可以使用以下命令安装 Dolphin 的最新版本:
pip install -U dataoceanai-dolphin
可用模型和语言
模型
Dolphin 中共有 4 个模型,其中 2 个现在可用。详见论文详情。
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
语言
Dolphin 支持 40 种东方语言和 22 种汉语方言。支持的语言完整列表请参阅 languages.md。
使用说明
命令行使用
dolphin audio.wav
# Download model and specify the model path
dolphin audio.wav --model small --model_dir /data/models/dolphin/
# Specify language and region
dolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN"
# padding speech to 30 seconds
dolphin audio.wav --model small --model_dir /data/models/dolphin/ --lang_sym "zh" --region_sym "CN" --padding_speech true
Python 使用
import dolphin
waveform = dolphin.load_audio("audio.wav")
model = dolphin.load_model("small", "/data/models/dolphin", "cuda")
result = model(waveform)
# Specify language and region
result = model(waveform, lang_sym="zh", region_sym="CN")
print(result.text)
项目链接
https://github.com/DataoceanAI/Dolphin
https://huggingface.co/DataoceanAI
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)