HLE 归档 - 每时AI

刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信

2025年7月5日11时作者机器之心

刚泄露的Grok 4和Grok 4 Code基准测试结果显示其在Humanities Last Exam(HLE)上达到惊人的45%，远超OpenAI o3及Claude Opus 4。此外，在研究生级物理和天文学问题上得分高达87-88%。

2025年2月3日23时作者甲子光年

OpenAI deep research意图突破“人类的最后考试”。
作者｜王博
北京时间今天上午，