Nvidia又一次刷新了开源AI模型的天花板!
刚刚,Nvidia高调宣布开源其最新语音识别模型:Parakeet TDT 0.6B,一上线就霸占了Open ASR Leaderboard榜单第一名的位置!
这款模型到底强在哪里?
居然能在1秒内完成60分钟音频的转录!
600M参数,不仅超高效,Nvidia还以CC-BY-4.0许可协议开源,意味着开发者可以完全免费将其用于商业用途。
Vaibhav (VB) Srivastav(@reach_vb)对模型发布做出评价:
Nvidia 刚刚开源了 Parakeet TDT 0.6B,这是目前Open ASR榜单上表现最好的语音识别模型。 它能在1秒钟内转录60分钟的音频,速度令人难以置信。 模型拥有6亿参数,以商业许可(CC-BY-4.0)开放。 祝贺Nvidia的杰出发布,直接击败了市面上主流的闭源巨头们!
为什么这么快?
Parakeet采用的是最新的FastConformer-TDT架构。
这种架构最显著的特征就是能对长达24分钟的音频片段进行高效处理,无需分割,直接单次处理完成。
此外,它集成了强大的TDT解码器,保证了高质量的标点符号预测、大小写精准以及准确的时间戳预测。
看看Hugging Face上的Open ASR排行榜表现:
-
平均词错误率(WER)仅为6.05%,在LibriSpeech clean测试集上甚至低至1.69%。
-
各大常用基准(AMI、GigaSpeech、TEDLIUM等)均表现优异。
而最关键的性能参数RTFx(实时性能倍数)更是惊人地达到3380(批处理大小128),说明其转录效率已经远远超越了现有的主流方案。
开发者反应热烈
这次Nvidia开源Parakeet,引发了广泛关注,不少AI圈的网友纷纷发推询问、点评:
tj(@new_discord_tea)直接惊呆了:
一秒转录60分钟音频,你确定?我的RTX 3090能跑吗?
而AI Wave(@aiwaveco)则毫不掩饰自己的兴奋:
Nvidia这次玩得太大了,开放许可、性能屠榜,这种速度和易用性会改变整个行业。
甚至有人开始积极探索Parakeet在各平台的兼容性,Mono Silabo(@monosilabo)关注Mac平台:
我能在我的MacBook Pro M3上运行它吗?
很快,就有用户提供了方案。silv.eth(@mattsilv) 表示一开始对MacOS不抱希望,但后续有用户发布了针对Apple Silicon芯片优化的移植版本:
而Nithin Rao(@nithinraok_)则提供了具体移植版本的信息:
有人已经把Parakeet移植到了mlx上,支持苹果芯片的Mac用户直接用pip安装就能用了。
传送门:huggingface.co/senstella/parakeet-tdt-0.6b-v2-mlx
High Jack(@jackadoresai)也推荐Mac用户尝试一下移植版:
Parakeet-mlx听说非常好用,苹果芯片用户可以试试,ASR也能变简单。
省流:暂只支持英文
不过,有一点用户要注意,Parakeet TDT 0.6B目前仅支持英文语音识别。
Leo(@LeoVasanko)指出了语言支持的局限:
Nvidia的模型非常快,但语言支持目前仍有限。Parakeet只支持英语,之前的Canary虽然号称支持四种语言,但在实际使用中对部分拉美口音的西班牙语表现并不好。
Mikolaj Piech(@mikolajpiech) 也询问大家是否知道更小巧的多语言模型:
Parakeet虽然出色,但仅限英语,谁知道小巧好用的多语言ASR模型吗?
而针对一些专业用户关心的SRT字幕和多人对话分离转录的功能,Ant A(@AntDX316)提出了疑问,目前官方还没有给出明确回复,看来还需要用户自行测试探索。
最后,Parakeet的具体安装和调用也相当简单:
pip install -U nemo_toolkit['asr']
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")
output = asr_model.transcribe(['audio.wav'], timestamps=True)
for stamp in output[0].timestamp['segment']:
print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")
开源的巨大冲击
Nvidia此次开源Parakeet,最大的意义在于推动整个语音识别领域的技术民主化。
DataInsta(@DataInsta_com)指出:
开源能极大地加速创新,就像transformer开源后彻底改变了NLP领域一样。
Oboe(@oboelabs)也对此表示赞同:
Parakeet是开源力量推动创新的绝佳例子,transformer开源后的繁荣就是最好的佐证。
随着更多高性能模型的开源,技术进步的门槛正在降低,未来的AI生态必然更加开放、丰富。
现在,所有人都可以免费、自由地使用最前沿的AI语音识别技术了——
Parakeet 来了,你准备好了吗?
相关阅读
-
模型主页:huggingface.co/nvidia/parakeet-tdt-0.6b-v2 -
Open ASR Leaderboard:huggingface.co/spaces/hf-audio/open_asr_leaderboard
(文:AGI Hunt)