SOTA成绩归档 - 每时AI

DeepSeek-R1超级外挂！“人类最后的考试”首次突破30分，上海交大等开源方案碾压OpenAI、谷歌

2025年7月9日16时作者量子位

内团队干的！
该测试集是出了名的超难，刚推出时无模型得分能超过10分。
直到最近，
最高分也不过26

2025年1月14日16时作者量子位

欧洲版OpenAI Mistral 的CodeStral 2501版本发布，上下文窗口达到256k，并且在多个编程语言的代码补全能力上取得SOTA成绩。