英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!

英伟达发布Parakeet TDT 0.6B V2开源语音识别模型,参数仅600M,平均词错误率(WER)6.05%,可在1秒内完成60分钟音频转录,支持英文,已入驻Hugging Face Open ASR榜单首位。

Orpheus 3B – 高质量、情感丰富的文本转语音,技术面试中提供编码问题实时 AI 辅助的工具,

Orpheus TTS 提供语音克隆、情感控制和低延迟功能的开源 TTS 系统。CrackCode 是一款隐蔽的 AI 面试助手。Claude Code but with OpenAI Models 使用 OpenAI 模型提供实时代码建议。Local Whisper 实现本地实时语音转录,YT Navigator 是一个高效的 YouTube 内容搜索工具。