跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

ARC-AGI

ARC-AGI vs GAIA,谁才是AGI 的超级照妖镜?

下午4时 2025/04/14 作者 AGI Hunt

和GAIA
一个号称能隔离泛化能力,
测试AI的真正问题解决能力
不让AI靠预设知识蒙混过关
另一个

分类 分享 标签 ARC-AGI、 GAIA、 复杂现实任务、 多代理系统、 工具使用、 推理 发表评论

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

下午8时 2024/12/29 作者 机器之心

OpenAI 新模型 o3 在 ARC-AGI 基准测试中取得了显著进步,但仍有部分任务无法解决。o3 能够适应新任务的能力实现了质的飞跃,但仍存在一些局限性。

分类 学术、 资讯 标签 87.5%、 ARC-AGI、 o3、 OpenAI、 复杂问题、 推理模型 发表评论

OpenAI o3 被曝智商高达 157,比肩爱因斯坦,但却没法证明比人类聪明

下午6时 2024/12/25 作者 APPSO

文章介绍了AI在各种智能测试中的表现,并讨论了使用这些测试衡量AI能力的方法论局限性。文章指出用人类标准衡量AI可能存在偏差,强调应关注AI解决实际问题的能力。

分类 资讯 标签 ARC-AGI、 François Chollet、 o3、 OpenAI、 抽象推理能力、 门萨智商测试 发表评论

OpenAI被曝数据崩溃GPT-5难产,团队抢算力冲突激烈!Ilya预言成真?

下午12时 2024/12/24 作者 新智元

新智元报道
编辑:编辑部 JHZ
【新智元导读】
虽然圣诞12日最后一天,o3刷新了ARC-AGI测

分类 资讯 标签 87.5%、 ARC-AGI、 GPT-5、 o3模型、 博士学位、 重大飞跃 发表评论

重磅!OpenAI推出o3模型系列:彻底颠覆AI怀疑论者,AGI评测基准达到惊人87.5%

上午8时 2024/12/21 作者 AI寒武纪

OpenAI发布o3模型系列,在ARC-AGI评估基准上取得87.5%得分,超越人类(85%),展示显著进步,但认为仍非AGI。同时展示了其在数学和编程测试中的强项。

分类 国际、 资讯 标签 2个百分点、 ARC-AGI、 o3模型系列、 OpenAI、 数学和编程、 通用人工智能 发表评论

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • DeepSeek更新刷榜!R1-0528改进编码性能,媲美o3 High和Claude 4
  • PaddleOCR 3.0发布:OCR精度跃升13%,支持多语种、手写体与高精度文档解析
  • DeepSeek-R1 更新,思考更深,推理更强
  • DeepSeek-R1-0528 打榜、20+案例全面实测,全球网友狂点赞:实力堪称R2!
  • 地平线子公司融资1亿美元,汽车供应链争做具身智能“卖铲人”

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×