实时语音转录神器realtime-transcription-fastrtc

项目简介

该项目使用 FastRTC 处理实时音频流，并通过 Transformers 使用开源自动语音识别模型。

检查 FastRTC 文档以查看您可以调整哪些与音频流、语音活动检测（VAD）等相关的参数。

System Requirements 系统要求

git clone https://github.com/sofi444/realtime-transcription-fastrtccd realtime-transcription-fastrtc

📦 使用 UV（推荐）

🐍 使用 pip

🍎 macOS 苹果 macOS

🐧 Linux (Ubuntu/Debian)



步骤 4：配置环境

创建项目根目录下的 .env 文件：

UI_MODE=fastapiAPP_MODE=localSERVER_NAME=localhost

UI_MODE：控制要使用的界面。如果设置为 gradio ，将通过 Gradio 启动应用程序并使用其默认界面。如果设置为其他任何内容（例如 fastapi ），它将使用根目录中的 index.html 文件来创建界面（您可以按需自定义它）（默认 fastapi ）。
APP_MODE: 如果仅在本地运行，请忽略此设置。如果您在 Spaces 等环境中部署，则需要配置一个 Turn 服务器。在这种情况下，将其设置为 deployed ，按照此处说明操作（默认 local ）。
模型 ID：您要使用的 ASR 模型的 HF 模型标识符（见此处）（默认 openai/whisper-large-v3-turbo ）
服务器名称：绑定到的主机（默认 localhost ）
端口：端口号（默认 7860 ）

python main.py

点击弹出的 URL（例如：https://localhost:7860）以开始使用应用程序！

https://github.com/sofi444/realtime-transcription-fastrtc

扫码加入技术交流群，备注「开发语言-城市-昵称」

（文：GitHubStore）