给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 AAAI 2025
BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能,解决了噪声、口语化表达及同音词混淆等问题,在多个基准数据集上取得了最优表现。
BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能,解决了噪声、口语化表达及同音词混淆等问题,在多个基准数据集上取得了最优表现。
蚂蚁集团Ling Team团队利用AI Infra技术开发了两个百灵系列开源MoE模型,并在训练阶段使用国产AI/GPGPU芯片产品降低了成本。相关成果发表在预印版Arxiv平台上。
谷歌在MWC上推出Project Astra与Gemini Live集成的新AI功能,包括屏幕共享和实时视频回答问题。这些功能提升了实时人工智能交互的能力,使Gemini Live能够更好地理解和响应用户的需求。
ainee,欢迎
阅读本期新文章。
在可能的路上把工具的Buff叠满,就能效率起飞了。
今天我们来说