英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!

英伟达发布Parakeet TDT 0.6B V2开源语音识别模型,参数仅600M,平均词错误率(WER)6.05%,可在1秒内完成60分钟音频转录,支持英文,已入驻Hugging Face Open ASR榜单首位。