威廉·洛夫·普兰特归档

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准，能力涌现怕不是检索题库

2025年1月6日12时作者量子位

斯坦福大学研究表明，在更换数学题变量名称后，大模型的准确率直线下降。即使是表现最好的o1-preview模型，其准确率也从50%降至33.96%，表明它们可能更多依赖已存储的答案而非推理能力。团队提出Putnam-AXIOM。该基准解决了现有评估基准数据污染和饱和的问题，为自动化评估提供方法并生成变体数据集。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31