给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 AAAI 2025
BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能,解决了噪声、口语化表达及同音词混淆等问题,在多个基准数据集上取得了最优表现。
BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能,解决了噪声、口语化表达及同音词混淆等问题,在多个基准数据集上取得了最优表现。
an.zhihu.com/p/23430297491
编辑丨极市平台
极市导读
首个针对Mamba系
今年Mamba作为一种新选择性状态空间模型,在CV领域引发关注。其在多项评估中表现出色,并且具有高感知学习能力和低部署效率的优势,能够显著降低计算成本。