自动化构建归档

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

下午4时 2025/06/10 作者量子位

北大邓小铁课题组发布的新基准IDA-Bench模拟真实数据分析场景，测试了大模型在多轮交互中的表现。结果显示即使是顶尖模型，其成功率也仅约40%，揭示了现有模型在理解和遵循指令方面存在的问题。