跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

HLE

刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

2025年7月5日11时 作者 机器之心

刚泄露的Grok 4和Grok 4 Code基准测试结果显示其在Humanities Last Exam(HLE)上达到惊人的45%,远超OpenAI o3及Claude Opus 4。此外,在研究生级物理和天文学问题上得分高达87-88%。

分类 学术、 资讯 标签 AIME '25、 Grok 4、 HLE、 SWE-bench、 X 博主、 马斯克 发表评论

Grok 4基准测试被爆极其优异,人类终极考试成绩飙升到45%,碾压o3 和Gemini的20%

2025年7月5日8时 作者 AGI Hunt

Grok-4的基准测试数据在网上疯传,HLE成绩达到35%,使用推理后更是飙升到45%,相当于直接翻了一倍多,引发热议。

分类 分享 标签 API开发者ʟᴇɢɪᴛ、 HLE、 Jefferson Way、 K Aayush Mazumdar、 Mel Gibson、 The Mandorlarian 发表评论

一件比OpenAI发布deep research更值得关注的事情|

2025年2月3日23时 作者 甲子光年

OpenAI deep research意图突破“人类的最后考试”。
作者|王博
北京时间今天上午,

分类 资讯 标签 HLE、 Mark Chen、 OpenAI o3模型、 人文和社会科学、 人类的最后考试、 化学领域 1 条评论

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub Google GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 万亿参数模型Kimi-K2部署、微调需要多大配置及4个代表性的大模型训练框架
  • 中国玩家全栈突破!全光互联Scale Out让AI进入“光速时代”
  • 与数字幽魂的爱情
  • 高盛将迎数百名“AI工程师”上岗
  • 刚刚,斯坦福宣布发起首个AI 主导学术会议

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×