
新智元报道
新智元报道
【新智元导读】Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体,Claude 3.7结果令人瞠目结舌。
LLM评估基准的「黄金标准」,正在失效?
上下滑动查看

「游戏智能体」演示demo
GPT-4.5反应迟钝,GPT-4o永远被第一个小怪杀死
GPT-4o总是被第一个小怪杀死,像极了操作很烂会被队友喷的游戏菜鸡。
短短20s,游戏就结束了。
相比之下,GPT-4.5的表现就好多了,起码没卡在第一个小怪。
但它的反应还是很迟缓,几乎是两步一停。
跳过一个矮水管之前,也要犹豫片刻,感觉像是刚学会了游戏操作,还在蹒跚学步。
一个稍高点的水管,尝试了7次,足足花了10s才跳了过去。
好不容易跳了过去,就撞到小怪死掉了。第一回合就这样告终了。
更好笑的是,第二回合的时候,GPT-4.5又栽倒在了第一个小怪那里。毕竟和GPT-4o同属于OpenAI家族,操作都比较菜(bushi)。
第三回合表现也比较一般,还不如第一回合。第一个矮水管就卡了半天,搁水管底下卡了快10s才想起来跳。
最后虽然丝滑地跳过了第二个水管,但还是被小怪杀死了,还没有第一回合走得远。第一回合起码跳过了第三个水管,虽说刚跳过就被杀了。

GPT-4.5完整视频
Gemini 1.5两步一跳,2.0栽进坑里
到了谷歌这边,Gemini 1.5 Pro首战也不如意,没能逃过第一个小怪的魔爪。
第二回合Gemini 1.5算是躲过了第一个小怪,甚至还碰到了问号箱,吃到了蘑菇。
有趣的是,和GPT-4.5两步一停不同,Gemini 1.5是「两步一跳」。
走了这么一小段路,一共就跳了9回。地板上也跳一跳,水管上也跳一跳。





Gemini 2.0 Flash完整视频
Claude 3.7 Sonnet发现隐藏奖励
相比之下,Anthropic的Claude,就要惊艳多了。

尤其是在跳跃的时机上,显得更有章法,碰到水管、碰到坑才会跳。




AI大战2048益智游戏,GPT-4o拿不出手
接下来,再看一个益智类的游戏2048。

俄罗斯方块,智商在线
那么Claude 3.7玩俄罗斯方块的表现,又如何呢?


(文:新智元)