北大出手,物理学院天才们教AI「做人」!PHYBench成大模型物理能力试金石



  新智元报道  

编辑:定慧
【新智元导读】在「学」与「思」之间,AI需要跨越的不只是算力的堆砌。北大物理学院联合多个院系,推出了首个专注于物理感知与推理能力的大模型基准——PHYBench。首次系统性揭示了当前大语言模型在理解物理世界时的巨大短板。

学而不思则罔,思而不学则殆。

——《论语》

如果说大模型的训练是「学」的过程,那么各种基准测试就是大模型停下来「思」的片刻。

现在模型训练需要的算力和电量已经远超碳基人类的范畴,AI的学习只需要更多的卡和更多的电。

AI学习不成问题,但是AI能「思」吗?

但是对于AI的评估,似乎有些「迷惘」——AI的基准测试到底应该如何设计才能体现模型真正的能力?

来自datalearner.com上AI评测基准,只是一些还有很多

像DeepSeek-R1和OpenAI-o3等推理模型展现了复杂推理能力,这些推理模型能够理解、建模并回答奥林匹克级别的难题。

但是目前的这些基准有点像是「为了考试而考试」制作的考卷,AI们只需要在特定的数据集上完成训练,就可以做一个高分的考生。

这就像从学校走向社会的高分考生,不一定能从象牙塔一下子适应到外部社会的弱肉强食。

既然AI的能力需要辐射到现实生活,那么也许一个针对「物理」的评测指标是不是更能验证AI的现实可用性?

最近,由北大物理学院、人工智能研究院、计算科学研究中心、集成电路学院和元培学院共同组成的「天团」,推出了一个用于评估大语言模型在物理情境中的推理能力的高质量基准——PHYBench。

值得一提的是,这其中有很多人都是物理竞赛金牌得主。

论文地址:https://arxiv.org/abs/2504.16074

具体来说,PHYBench包含500个精心挑选的基于现实的物理问题。

涵盖了力学、电磁学、热力学、光学、现代物理学和高级物理学等领域,难度从高中习题到大学生问题,再到物理奥林匹克挑战题目不等。

有没有想起被高中物理支配的恐惧?

如何评价一个评测基准到底好与坏,适合与不适合?这里引用北大团队的一句话最为适合不过。

基准测试不会神化或贬低模型;它们引导人类和AI共同朝着AGI前进。

先来看下目前的推理基准通常会有的三个问题:

1. 过度简化的推理任务:随着模型性能越来越高,现有的基准已经不再足够。

2. 过度抽象的问题:虽然现有的基准测试通过抽象或建模建立了足够的推理难度,但它们往往缺乏物理现实和实际应用的基础。说人话就是,评测太抽象冷门,现实里大概率遇不到,通过了可能也无法指导现实。

3. 缺乏精确的评估指标:当前的自动化评估方法在捕捉复杂推理的细微方面仍然不足。简单说就是,评测结果不能简单的分段,最好是能具体到1-100比较精确的分数。

PHYBench就是为了解决这些问题,PHYBench涵盖了物理学中的多个领域,使用明确定义的物理表达式作为答案。

这确保了对模型的物理感知和稳健推理能力的准确评估。

基于策划的数据集,进一步提出了表达式编辑距离(EED)得分,这是一种利用树表达式和编辑距离的自动、细粒度的评估指标,展示了LLMs给出的表达式与真实值之间的「接近」程度。

来自 PHYBench的一个示例问题。使用两个主要指标来评估模型性能:表达式编辑距离(EED)得分和准确率。

上图展示了三个不同回答的得分,其中答案1和模型答案2分别由DeepSeek-R1和GPT-4o生成。

除了评估语言模型外,北大团队还通过招募北京大学的物理系本科生来解决相同的问题,建立了人类水平基线(这水平有点高了)。

结果显示,机器和人类的能力之间存在显著的性能差距。

即使是最先进的LLM——Gemini 2.5 Pro——也仅达到了36.9%的准确率,远低于人类基线的61.9%。

PHYBench基准测试

PHYBench的每道题目都基于一个具体的物理情景,要求模型根据给定条件推导出关键物理量的符号表达式。

所有问题都有明确的标准答案,且均可通过物理原理独立求解,无需依赖外部知识。

真正的挑战在于,模型需要能根据文本描述准确构建空间和相互作用关系,选择性地应用多条物理定律和定理,并在动态系统的演化与相互作用中进行复杂计算。

此外,大多数题目都涉及长链推理,模型必须在多步推导中剔除无关的物理作用和排除不合理的代数解,以避免计算复杂度急剧上升。

不同于以往注重高强度推理或穷举搜索空间的基准测试,PHYBench更加注重真实物理场景中的逐步感知与推理能力。

简单地说,就是希望LLMs像人一样进行逻辑推理,而不是类似「鸟枪法」的暴力解法。

数据集整理

PHYBench基准测试题目改编自面向人类的物理练习题,难度涵盖高中至大学物理竞赛水平。

邀请了来自北京大学物理学院的178名学生参与题目的贡献与打磨。

上图展示了数据整理的流程。数据来源包括非公开和公开的问题,这些题目无法通过直接的网络搜索或常规

(文:新智元)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往