噪声输入实验归档

AI集体“听不懂”！MMAR基准测试揭示音频大模型巨大短板

下午4时 2025/06/09 作者量子位

研究团队发布了一项包含1000个高质量问题的音频理解评估基准MMAR，测试了30款模型的表现。结果表明大多数开源模型在面对复杂音频推理任务时表现不佳，而闭源模型Gemini 2.0 Flash则表现出色。该基准展示了当前AI在音频理解方面的不足，并强调了数据和算法创新的重要性。