3.4k星星！开源超低延迟实时语音转文本STT，支持语音活动检测、唤醒词激活。

今天介绍的是RealtimeSTT。

这个项目实际上是在Whisper的基础上做的，主要功能是STT，平时大家听ASR、语音转文本比较多一些，差不多的一个概念。

因为它把Whisper做了流式输出，速度很快，几乎是实时的了，还做了一些纠错机制。

其实这个项目还是很有价值的，流式的语音转文本会让很多场景响应速度更快。

举个简单的例子，现在很多发布会都是大屏显示说话人的实时讲话，这其实就跟RealtimeSTT的功能差不多，如果再加上实时的翻译，是不是就更酷了。

项目简介

RealtimeSTT是一个简单易用、低延迟的实时语音转文字项目。它能实时监听麦克风，将语音转为文本，适用于语音助手等需快速精准转换的应用。新增 AudioToTextRecorderClient 类，可自动启动并连接服务器（部分功能还在完善），CLI 接口也经过重写，使用 stt-server 启动服务器，stt 启动客户端。。

DEMO

功能特点

语音活动检测：能自动检测用户何时开始和停止说话。
实时转录：实时将语音转换为文本。
唤醒词激活：可在检测到指定的唤醒词时激活。
AudioToTextRecorderClient 类：如果没有服务器在运行，该类会自动启动一个服务器并连接到它。接口与 AudioToTextRecorder 相同，便于在两者之间进行升级或切换。AudioToTextRecorder 的大部分参数和回调已在 AudioToTextRecorderClient 中实现，但服务器目前还无法处理并发请求。
CLI 接口：使用 stt-server 启动服务器，stt 启动客户端。

技术基础

语音活动检测：

WebRTCVAD：用于初始语音活动检测。
SileroVAD：用于更准确的验证。

语音转文本：

Faster_Whisper：用于即时（GPU 加速）转录。

唤醒词检测：

Porcupine 或 OpenWakeWord：用于唤醒词检测。

项目链接

https://github.com/KoljaB/RealtimeSTT

关注「开源AI项目落地」公众号

（文：开源AI项目落地）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复