ARC-AGI vs GAIA,谁才是AGI 的超级照妖镜?

如果你有关注AGI 相关的BenchMark

应该会经常看到这两个神秘基准测试的名字

ARC-AGI和GAIA

一个号称能隔离泛化能力,

测试AI的真正问题解决能力

不让AI靠预设知识蒙混过关

另一个则直击现实世界痛点

号称如果有AI能解决它,

就意味着AI研究的里程碑!

而两个BenchMark 究竟谁更强呢?

先说ARC-AGI——AI智商检测器!

自2019年就开始测量AI进步的ARC-AGI

是唯一能精准指出AI何时超越纯记忆的基准!

这玩意表面看像是个简单的小测验

摆着一堆不同颜色的方块,

要AI从中识别视觉模式,

然后生成正确的”答案”网格

听起来很简单?

那咱看看各家模型都什么表现:

GPT-4o才考了5%的分!

一众AI模型们全傻眼了~

这与测试模式识别或暴力计算的基准不同,

ARC-AGI挑战的是概念推理能力,

这可是人类智能的传统领地啊!

可就是这么个变态测试

OpenAI的o3模型竟然在公共排行榜上拿了75.7%,

高计算模式下甚至打到了87.5%

嘿,这AI翅膀真硬了啊?!

不过就在上个月(2025年3月)

ARC Prize基金会又整出个ARC-AGI-2

这新版本对AI难度更高

(但对咱人类还是一样简单)

这不是存心为难AI吗?!

再说GAIA——AI搬砖小能手!

这个GAIA 也不简单,

它提出的问题对人类来说概念上简单,

但对大多数先进AI来说却是噩梦!

人类受访者能拿下92%,

而带插件的GPT-4才可怜巴巴地拿了15%

怎么又是拿人类智商欺负AI?!

不过与ARC-AGI 不同的是

GAIA考的是AI的现实世界能力:

推理、多模态处理、网络浏览,

总之就是各种工具使用能力

正经人谁还记ARC-AGI 这样的八股文啊?

整得跟考公务员似的

实际中还是能上手干活才是真本事!

而且这GAIA还分三个级别,难度拉满:

由450多个非平凡问题组成,

每个都需要不同级别的工具和自主性才能解决,

一级难度就够顶级LLM 喝一壶,

三级难度简直是模型能力的飞跃

第1级问题需要约5个步骤和一个工具,

第2级需要5到10个步骤和多个工具,

第3级可能需要多达50个离散步骤和任意数量工具

什么叫真实世界的复杂性?

这就是!

为避免LLM评估常见陷阱,

GAIA出的都是有挑战性的多步骤问题,

不可操纵且不易暴力破解

模型大挑战

来看ARC-AGI-2的战场:

连OpenAI的o1-pro和DeepSeek的R1

这些“推理型”AI都只能拿1%-1.3%的成绩,

强大的非推理模型如GPT-4.5、Claude 3.7 Sonnet

和Gemini 2.0 Flash也就1%左右

GAIA这边竞争更激烈:

h2oGPTe Agent这个猛人

以65%的显著分数位居榜首,

大幅超过了其他主要玩家

不过就这成绩,跟人类的92%比,还有不小差距啊!

双测试基准

这俩测试都精准打中了AI模型的七寸!

GAIA在AI社区备受尊敬,

因为它测的是AI现实世界实用性,

不是纯理论知识

ARC-AGI也是一针见血:

它隔离了泛化能力——

把有限信息应用到新的、未见过情况的能力,

让AI必须展示真正的问题解决能力

这俩基准测试其实是互相补充的角色:

ARC-AGI:考验AI的抽象推理和通用思维

GAIA:测试AI的工具使用和实际操作

这是给AI上的一堂全面素质课啊!

谁才是AGI 的超级照妖镜?

GAIA与其他测试不同,

它专注于需要综合能力的现实任务:

推理+多模态处理+工具使用

而ARC-AGI关注泛化能力——

在有限样例下找规律并应用到新问题

谁更厉害呢?

我的答案是:它们并非对手,而是搭档!

这就像你考驾照:

理论考试(ARC-AGI):测你懂不懂规则

路考(GAIA):看你会不会实际开车

只有两样都过关的AI,才能真正上路!

GAIA的思路打破了当前AI基准测试潮流,

不是追求对人类越来越难的任务,

而是认为AGI的到来,

取决于系统能否像普通人一样解决简单问题

AI能摆脱照妖镜魔咒吗?

随着模型不断进化,这些基准测试也在升级:

ARC-AGI-1被o3模型攻破后,

ARC-AGI-2马上就来接盘,

继续作为AI研究的指南针

而GAIA那边,成功率达到90%

被认为是多代理系统可以替代人类的门槛,

这是多代理系统的一种”图灵测试”

可AI发展的终极目标是什么呢?

把GAIA的问题解决了,

真的会是AI研究的里程碑

那时,AI就不只是聊天机器人了,

而是能像人类一样处理复杂现实问题的助手!

虽然这其实很危险

但不正是人们想要的结果吗?

而AI评估的未来

将不会只在孤立的知识测试,

而在于对问题解决能力的全面评估。

像ARC-AGI和GAIA这样的基准测试,

正在架着通往真正AGI的桥梁!

你更看好哪个?

是偏重脑力操作的ARC-AGI?

还是强调实际动手能力的GAIA?

欢迎在评论区说说你的看法!

(文:AGI Hunt)

发表评论