TEN VAD(语音活动检测) 上午8时 2025/05/24 作者 NLP工程化 TEN VAD 是一个轻量级流式语音活动检测模型,具有低延迟、低功耗和高准确率的优势,用于预处理语音输入的大语言模型(LLM)。
在 Hugging Face 上部署语音转语音模型 下午2时 2025/03/11 作者 Hugging Face 了多种先进的模型,创造出几乎天衣无缝的体验: 你输入语音,系统会用合成的声音进行回复。 https:
3.4k星星!开源超低延迟实时语音转文本STT,支持语音活动检测、唤醒词激活。 下午11时 2025/01/17 作者 开源AI项目落地 RealtimeSTT是基于Whisper的流式语音转文字项目,具有实时性和纠错机制。它能快速监听麦克风并转换为文本,适用于需要快速精准转换的应用场景。