AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
研究团队发布了一项包含1000个高质量问题的音频理解评估基准MMAR,测试了30款模型的表现。结果表明大多数开源模型在面对复杂音频推理任务时表现不佳,而闭源模型Gemini 2.0 Flash则表现出色。该基准展示了当前AI在音频理解方面的不足,并强调了数据和算法创新的重要性。
研究团队发布了一项包含1000个高质量问题的音频理解评估基准MMAR,测试了30款模型的表现。结果表明大多数开源模型在面对复杂音频推理任务时表现不佳,而闭源模型Gemini 2.0 Flash则表现出色。该基准展示了当前AI在音频理解方面的不足,并强调了数据和算法创新的重要性。