北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师

北大邓小铁课题组发布的新基准IDA-Bench模拟真实数据分析场景,测试了大模型在多轮交互中的表现。结果显示即使是顶尖模型,其成功率也仅约40%,揭示了现有模型在理解和遵循指令方面存在的问题。