无需联网,直接在本地运行的开源语音识别模型:Moonshine,上线不到一周就在 GitHub 上揽获 1.4k Star。受到用户如此的追捧,得益于其三个特点——更小、更快、更准。
-
更小:Moonshine 可以部署在本地设备,甚至是可穿戴设备上,实现断网运行。
-
更快:在处理小于10秒的音频时,Moonshine的速度是 Whisper 的5倍。
-
更准:在 OpenASR 数据集上,Moonshine 的平均词错误率比 Whisper 更低。
以上优势源于其计算需求与输入音频的长度成比例,因此更适合处理对话、会议、演讲等现场场景。
具体来说,Moonshine 基于以下技术:
-
编码器-解码器架构:采用基于 Transformer 的模型结构,编码器负责处理输入语音信号,解码器生成相应文本输出。 -
旋转位置嵌入(RoPE):相比传统的绝对位置嵌入,RoPE 可以更好地捕捉序列元素的相对位置,有助于增强模型对时间序列的理解。 -
可变长度处理:Moonshine 的编码器支持处理不同长度的语音片段,无需零填充,显著降低不必要的计算,提高了处理效率。 -
大规模训练:模型在大量公开 ASR 数据集以及内部数据上训练,并使用先进的数据增强和预处理技术,使模型具备更强的泛化能力。
参考文献:
[1] https://github.com/usefulsensors/moonshine
[2] https://arxiv.org/abs/2410.15608
[3] https://petewarden.com/2024/10/21/introducing-moonshine-the-new-state-of-the-art-for-speech-to-text/
[4] https://github.com/usefulsensors/moonshine/blob/main/model-card.md
[5] https://notebooklm.google.com/notebook/d787d6c2-7d7b-478c-b7d5-a0be4c74ae19/audio
(文:NLP工程化)