给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 AAAI 2025 下午4时 2025/03/24 作者 新智元 BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能,解决了噪声、口语化表达及同音词混淆等问题,在多个基准数据集上取得了最优表现。