语音识别归档

小红书「REDstar顶尖人才计划」全球启动！毕业三年内均可投递！

2025年7月2日23时作者 PaperWeekly

阿里巴巴发布2021年度碳中和进展报告，宣布将在2030年前实现自身运营及主要业务的碳中和目标。

2025年6月20日8时作者 NLP工程化

美团和浙江大学联合研发GUIRoboTron-Speech，实现首个语音+截图端到端决策的GUI智能体，可“用说的”操作界面。

2025年6月11日14时作者小兵的AI视界

通义联合深圳技术大学推出的CoGenAV模型通过融合音频和视觉信息，显著提升了语音识别和处理性能。仅需223小时标记数据即可训练，展现出极高的数据效率，并在多种语音处理任务中表现出色。

2025年6月8日11时作者机器之心

本文研究了大语言模型在代码推荐中对特定服务供应商的偏好问题，揭示了供应商偏见可能导致的安全后果，并提出了一些建议。

2025年5月17日8时作者新智元

4o称霸文本生成，谷歌的Gemini 2.5 Pro领跑推理，Kling在视频领域异军突起，企业如何

2025年5月9日8时作者 NLP工程化

英伟达开源Parakeet TDT 0.6B V2语音识别模型，RTFx 3380排名榜首，具备精准时间戳、智能标点和特殊场景识别能力，支持多种应用场景。

2025年5月2日8时作者开源星探

一款名为Aero-1-Audio的新型音频模型发布，参数仅有1.5B但性能出色，支持长音频处理、语音识别和音频理解任务。训练时间短且资源占用低，适用于语音助手、实时转写等场景。

2025年4月29日8时作者机器之心

ISCA Fellow 2025揭晓，8位华人学者入选。包括思必驰俞凯、中国台湾大学李宏毅及A*STAR Nancy Chen等多位专家。