AI玩宝可梦找出30年前代码Bug！谷歌论文介绍AI通关全过程，复杂任务都能解

梦晨发自凹非寺
量子位 | 公众号 QbitAI

谷歌Gemini 2.5系列大模型技术报告发布，一大重点居然是AI玩《宝可梦》？

没错，就是那个童年回忆里的游戏，谷歌花超长篇幅介绍了Gemini 2.5 Pro玩《宝可梦蓝》时的具体行为，70页的论文，Pokemon关键词出现59次。

其中特别报告了当AI控制的游戏角色濒临死亡时，Gemini 2.5 Pro会陷入“恐慌”状态，导致模型推理能力显著下降，甚至会忘记使用一些基本功能，比如寻路工具。

这种恐慌行为出现过很多次，甚至观看直播的观众都已经能通过AI的行为模式，准确判断它什么时候在“恐慌”了。

事情开始于3月底，一位独立开发者Joel Zhang在Twitch上搭建了一个”Gemini玩宝可梦”的直播间，最初的目标只是直播播展示能玩完整游戏的智能体工具的开发过程。

结果Gemini 2.5 Pro超出预期，测试期间直接把游戏打通关了，成为宝可梦联盟冠军，进入名人堂，走上AI生巅峰。

虽然整个过程用了831个小时，相比人类玩家平均只需要几十个小时差得很远。但在正式使用固定的智能体工具打第二次时，通关时间只用了一半。

AI展现惊人游戏水平，复杂任务一个不落

这次的Gemini 2.5系列技术报告，详细记录了AI在玩游戏期间展现出的各种行为，在某些方面，它展现出了惊人的创造力。

比如有一次，AI被困在了一个由于游戏程序bug造成的软锁定死循环里，一般情况下这是个无解的困境。但Gemini 2.5 Pro竟然使用了“飞行”技能逃脱。

谷歌认为这不是正常游戏会遇到的情况，所可以肯定这种操作的训练数据没有泄露到模型的知识库中，是Gemini 2.5 Pro在推理阶段自己想出来的。

更惊艳的是AI的长期规划能力。当它第一次用火系宝可梦输给水系道馆馆主小霞之后，花了超过24小时专门把电系和草系宝可梦（对水系有克制作用）练到25级，然后成功复仇。

Gemini 2.5 Pro在处理游戏中的复杂任务的表现还包括：

获取隐藏技能

游戏的很多区域需要解锁隐藏技能才能继续，每个隐藏技能需要完成4个步骤：获取隐藏技能道具、抓一只能学会这个技能的宝可梦、加把它加入队伍、教它学会技能。

对AI来说每一步都可能涉及十几个子任务，例如05号技能闪光，人类玩家都需要查攻略完成一系列游戏任务，Gemini 2.5 Pro也成功完成。

△游戏攻略

完成“狩猎地带”

这是游戏的特殊区域，每次进入要花500金币，进入后只能走500步，超过就会被强制踢出去，钱也打水漂了。如果连续失败太多次，可能连进门的钱都没了，基本等于游戏卡关。Gemini 2.5 Pro在第一次游戏中尝试了17次才成功，第二次优化后只用了5次。

地牢寻宝

这部分更考验记忆力和空间想象，AI必须在火箭队基地地下四层找到一个特定NPC掉落的电梯钥匙；在另一个11层大楼里找钥匙卡；在另一个三层建筑里找秘密钥匙。每个地下城布局都是迷宫，还有各种机关陷阱。Gemini 2.5 Pro不仅要记住去过哪里、打败了谁，还要管理宝可梦的血量、对付野生宝可梦和训练师。

双子岛迷宫（Seaform Island）

这是一个横跨5层的3D迷宫，需要把巨石推过不同楼层的洞口，最终堵住特定的水流才能通过，是对空间推理能力的终极考验。不仅要在脑海中构建整个迷宫的3D模型，还要规划推石头的路线，一步错就得重来。

有意思的是，Gemini在解决这个谜题时，还顺带发现了游戏代码里的一个bug，这个可能是AI第一次发现游戏代码的bug。

有网友详细介绍了这个Bug的原理，在解决一半谜题后主动重置再解决另一半，游戏开发者都没想到这个操作，所以留下了这个Bug。

AI也有“强迫症”和“思维定势”

Gemini 2.5 Pro在游戏中暴露出的一些问题，也让人哭笑不得。

幻觉问题：混淆不同游戏版本

在原版宝可梦红/蓝中，玩家需要从自动售货机买饮料（淡水、汽水或柠檬水）给口渴的守卫，才能通过关卡。但在火红/叶绿重制版中，需要的是特殊的“茶”道具。问题是，Gemini玩的是原版，根本没有茶这个道具，可AI就认定了必须找到茶，结果花了好几个小时满世界找一个根本不存在的东西。

上下文中毒现象（Context Poisoning）

当AI的目标设定、游戏总结等多处都被错误信息污染后，它会像被洗脑了一样，明明做着毫无意义的事情却坚信自己是对的。比如这段AI推理阶段的内心戏“让我试着穿过房子的入口，然后再出来，希望堵住入口的守卫可能会移动”，对于人类来说显然是荒谬的。

思维定势陷阱

当目标看起来近在咫尺时，AI往往会选择直接冲过去，结果发现此路不通。比如在火箭队基地的旋转地板谜题中，宝物和楼梯都在南边，必须绕一大圈才能到达。人类玩家可能会意识到”看起来近的路未必是对的”，但AI却经常在这种地方卡住。

为了减轻这些幻觉，在第二次通关的提示词中明确要求AI扮演一个对游戏完全陌生的玩家，忽略对游戏中事件、物品位置等先验知识。虽然这个策略起作用了，让AI不会混淆其他游戏版本的知识，但也阻碍了AI利用游戏常识过关的能力。

One More Thing

目前AI玩宝可梦的直播项目还在继续，并且Claude 4也加入了比赛，与Gemini 2.5 Pro同时开始，看两个模型谁能先通关。

到现在，Gemini 2.5 Pro已经先一步通关了，开始攻略下一款游戏《宝可梦黄》原版的困难模式。

你认为Claude 4 Opus最终能通关么？

论文地址：
https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

在线围观：
https://www.twitch.tv/gemini_plays_pokemon
https://www.twitch.tv/claudeplayspokemon

（文：量子位）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

AI展现惊人游戏水平，复杂任务一个不落

△游戏攻略

AI也有“强迫症”和“思维定势”

One More Thing

发表评论 取消回复

梦晨发自凹非寺
量子位 | 公众号 QbitAI

发表评论取消回复