3.4k星星!开源超低延迟实时语音转文本SST,支持语音活动检测、唤醒词激活。

今天介绍的是RealtimeSTT。

这个项目实际上是在Whisper的基础上做的,主要功能是SST,平时大家听ASR、语音转文本比较多一些,差不多的一个概念。

因为它把Whisper做了流式输出,速度很快,几乎是实时的了,还做了一些纠错机制。

其实这个项目还是很有价值的,流式的语音转文本会让很多场景响应速度更快。

举个简单的例子,现在很多发布会都是大屏显示说话人的实时讲话,这其实就跟RealtimeSTT的功能差不多,如果再加上实时的翻译,是不是就更酷了。

项目简介

RealtimeSTT是一个简单易用、低延迟的实时语音转文字项目。它能实时监听麦克风,将语音转为文本,适用于语音助手等需快速精准转换的应用。新增 AudioToTextRecorderClient 类,可自动启动并连接服务器(部分功能还在完善),CLI 接口也经过重写,使用 stt-server 启动服务器,stt 启动客户端。。

DEMO

功能特点

  1. 语音活动检测:能自动检测用户何时开始和停止说话。

  2. 实时转录:实时将语音转换为文本。

  3. 唤醒词激活:可在检测到指定的唤醒词时激活。

  4. AudioToTextRecorderClient 类:如果没有服务器在运行,该类会自动启动一个服务器并连接到它。接口与 AudioToTextRecorder 相同,便于在两者之间进行升级或切换。AudioToTextRecorder 的大部分参数和回调已在 AudioToTextRecorderClient 中实现,但服务器目前还无法处理并发请求。

  5. CLI 接口:使用 stt-server 启动服务器,stt 启动客户端。

技术基础

语音活动检测:

  • WebRTCVAD:用于初始语音活动检测。

  • SileroVAD:用于更准确的验证。

语音转文本:

  • Faster_Whisper:用于即时(GPU 加速)转录。

唤醒词检测:

  • Porcupine 或 OpenWakeWord:用于唤醒词检测。

项目链接

https://github.com/KoljaB/RealtimeSTT

 关注「开源AI项目落地」公众号

(文:开源AI项目落地)

欢迎分享

发表评论