TEN VAD(语音活动检测) 2025年5月24日8时 作者 NLP工程化 TEN VAD 是一个轻量级流式语音活动检测模型,具有低延迟、低功耗和高准确率的优势,用于预处理语音输入的大语言模型(LLM)。
在 Hugging Face 上部署语音转语音模型 2025年3月11日14时 作者 Hugging Face 了多种先进的模型,创造出几乎天衣无缝的体验: 你输入语音,系统会用合成的声音进行回复。 https:
3.4k星星!开源超低延迟实时语音转文本STT,支持语音活动检测、唤醒词激活。 2025年1月17日23时 作者 开源AI项目落地 RealtimeSTT是基于Whisper的流式语音转文字项目,具有实时性和纠错机制。它能快速监听麦克风并转换为文本,适用于需要快速精准转换的应用场景。