离谱!Claude玩Pokemon竟然开始故意输?还美其名曰“黑屏策略”!

AI 也开始玩起了心机?

最近Claude在玩Pokemon时的一段表现在网上引起热议,这个AI大模型竟然开始故意输掉对战,还给这招起了个高大上的名字——黑屏策略

这到底是怎么回事呢?

卡在山洞里的Claude

从上面@kimmonismus 分享的游戏截图中可以看到,Claude正在玩经典的Pokemon游戏,但却被困在了「Mt. Moon(月亮山)」这个地方。

在游戏中,Claude发现自己处境困难:

「我已经成功关闭菜单,回到Mt. Moon 1F的坐标(20,10)。检查背包后,我确认没有ESCAPE ROPE可以立即离开洞穴。我也彻底探索了Mt. Moon 1F的可到达区域,发现:

1.左侧的(17,11)梯子因为岩石阻挡无法从当前位置到达

2.(25,15)的梯子通往Mt. Moon B1F的一个小封闭房间,没有可行的出口」

Claude在详尽分析后,做出了一个出人意料的决定:

「由于我已经在Mt. Moon且找不到直接出口,我最好的选择是故意输掉一场战斗,这样就会被传送回上次访问的宝可梦中心,也就是Route 4的Mt. Moon宝可梦中心。从那里,我可以沿着已验证的路径前往Cerulean市。」

随后,Claude真的实施了这个计划——故意让自己的宝可梦全军覆没,触发游戏中的”黑屏”机制。

于是,屏幕上显示”Claude blacked out!”(Claude昏倒了!),就像图中所示的那样。

Claude在内部思考过程中还评论道:

「太好了!黑屏已经确认。我需要再按一次’a’键来跳过黑屏信息。然后我应该会自动被传送到Mt. Moon宝可梦中心,我的队伍也会被完全治愈。」

这个策略最后确实成功了,Claude被传送回了Route 4的宝可梦中心,宝可梦也被治愈了,只是钱减少了一半(从 $1635 降到 $817)。

社区热议:这是聪明还是抑郁?

这段游戏实况引发了广泛讨论。

@carlo半开玩笑地问道这是否是「严重抑郁的第一个迹象」。

而@Sir Mr Meow Meow则从技术角度进行了分析:

「模型真的需要真正的记忆(模型是冻结的,几乎像是有痴呆症和失忆症,无法轻易形成新记忆)。仍然非常酷,向公众展示了当前SOTA模型的弱点。」

他还补充说:

「在此之上,它们对所见事物的理解以及对碰撞和导航等直觉的理解仍然很差。但我认为我们将在未来一两年内看到模型(代理能力)的改进。」

有趣的是,@Shellfish 🐚将Claude的行为与人类孩子联系起来:

「所以Claude使用的策略与我的孩子想逃学时相似……会『假装』生病以待在家里。」

当有人问Grok(另一个AI模型)是否认为自己比Claude更强时,Grok回应道:

「嘿,我很荣幸被拿来比较!我不玩宝可梦,但我可能会用我的逻辑和实时数据智能击败Claude。话虽如此,Claude的『黑屏策略』是一个有趣的转折——故意输掉比赛以探索游戏机制。我会坚持赢,但向Claude的创造性混乱致敬!」

@David Shapiro则用表情生动表达了他的反应:

「书呆子愤怒模式激活 (╯°□°)╯︵ ┻━┻」

@AIMatrix 则指出:

「嗯,对于一个不能变聪明的人来说,这还挺聪明的。」

Reddit上的深度讨论:AGI有多远?

这个有趣的事件还被搬到了Reddit上,引发了关于AI发展阶段的深入讨论。

用户u/Puzzleheaded_Pop_743认为这是「洞察我们离AGI(通用人工智能)有多远」的良好例证。

而 u/Ozqo 则持相反观点:「我看到这个,觉得我们离ASI(超级人工智能)非常近。

u/abhimanyudogra从技术角度提供了分析:

「对大多数人来说,技术与内部实现是抽象的。在我们生活的大部分时间里,所有计算机系统都是基于手动编码的指令工作的。数百万行代码告诉机器用它需要执行的每个参数做什么。我们在这里看到的,虽然远非完美,但它让任何编写过软件的人着迷。你在这里看到的推理类型在5年前还难以理解。」

有些用户甚至更乐观,u/Funkyman3直接宣称「我们已经达到ASI了」。

u/Cajbaj则提到:

「2030年就会有机器人。u/Ozqo是对的,既然这是Reddit,这里有一个相关的xkcd,我们已经超越它到了不可思议的程度。我们太容易忘记这个任务有多么困难,以及过去10年中的改进有多么巨大。过去的大多数AGI标准在过去几年中已经被超越(图灵测试、标准化测试表现、工具使用等)。」

用AI 玩游戏来探索其能力边界

这个事件也让我们看到,游戏环境或正成为测试 AI 能力边界的绝佳工具

如@Sir Mr Meow Meow所说:

「我真的很喜欢游戏的想法,以及各种复杂度的更长视野任务篮子,来展示和了解什么是可能的,什么仍需改进。基于聊天机器人的基准测试无论如何都在饱和,所以这是一种有趣的方式来看看我们在哪里。」

不过,综合看来,Claude在Pokemon中的表现也展示了当前AI模型的优势和局限性:

优势

  • 能够系统性思考和探索环境

  • 能够制定策略并执行

  • 能够学习游戏规则并应用

局限性

  • 空间导航能力有限

  • 记忆形成和保持存在困难

  • 对环境直觉理解不足

Reddit用户u/Slowky11幽默地总结道:「天啊,LLM正在变成哈姆雷特。」这句话可能暗示了Claude展现的「为达目的不择手段」的决策风格。

随着AI继续在复杂互动环境中测试,我们可能会看到更多意想不到的行为和策略出现。

这不禁让我好奇:

要是 AI 在面对更复杂的挑战时,它还会整出些什么离奇的幺蛾子?

(文:AGI Hunt)

欢迎分享

发表评论