DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌 2025年7月9日16时 作者 量子位 内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。 直到最近, 最高分也不过26