X-Master 归档 - 每时AI

DeepSeek-R1超级外挂！“人类最后的考试”首次突破30分，上海交大等开源方案碾压OpenAI、谷歌

2025年7月9日16时作者量子位

内团队干的！
该测试集是出了名的超难，刚推出时无模型得分能超过10分。
直到最近，
最高分也不过26