多模态语音识别归档 - 每时AI

给语音模型戴上「眼镜」，错误率降低12.5%！人大CMU最新开源 AAAI 2025

下午4时 2025/03/24 作者新智元

BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能，解决了噪声、口语化表达及同音词混淆等问题，在多个基准数据集上取得了最优表现。