
在日本东京的举办的AtCoder启发式编程世界杯总决赛(AtCoder Heuristics World Finals)中,人类选手Psyho经过10小时苦战最后还是守住了人类的尊严赢得了冠军,OpenAI研发的先进推理模型AHC最终获得亚军,但下一次人类还能赢吗?


赛场:优化难题
AtCoder启发式编程竞赛是全球顶级的编程赛事之一,专注于解决“优化问题”。这类任务没有唯一的正确答案,参赛者需要在有限的时间和计算资源内,寻找尽可能最优的解决方案
本次总决赛的题目名为“小组指令与墙壁规划”(Group Commands & Wall Planning)。在一个30×30的网格上,分布着K个机器人,每个机器人都有一个起点和终点。参赛者需要在机器人移动前,通过添加墙壁来改造迷宫,并将机器人分组。随后,通过发布团队或单兵指令,引导所有机器人以最少的操作次数回到各自的目标位置。最终得分由操作数和距离惩罚共同决定。这是一个典型的NP困难问题,极其考验选手的策略、创造力和持久力。
战况:跌宕起伏的10小时
比赛过程充满了戏剧性,OpenAI全程直播了其模型的自主参赛过程——在10小时内,模型独立分析问题、编写代码、提交解答,没有任何人类干预
开局(0-3小时):AI的闪电战
比赛伊始,OpenAI模型采取了高效的“贪心策略”。它完全忽略了设置墙壁的选项,而是专注于在现有迷宫中规划最快的路径和分组,凭借其强大的计算速度,迅速冲上排行榜第一。然而,经验丰富的竞赛圈内人都明白,这种早期的领先在人类选手的中后期复杂策略面前往往难以维持

转折(约第3小时):AI开始建墙了!
正当大家猜测AI是否会陷入“不建墙”的局部最优解时,模型突然开始放置墙壁!

中盘(3-7小时):人类的反击
AI的初步建墙策略相对保守,而人类选手则展现出了惊人的创造力。他们设计出各种复杂的策略,如漏斗形墙壁、分阶段重组、微调优化等。其中,选手@asi1024
更是构建出了“雕塑般华丽”的迷宫布局。逐渐AI与人类的差距逐渐缩小。在比赛进行到大约7小时的时候,选手Psyho成功反超,登顶第一
高潮(约第8小时):AI的绝地反击
就在大家以为AI后劲不足时,剧情再次反转。模型通过自我迭代,发现了新的思路,包括更优的建墙策略和资源调度算法,一举夺回了榜首位置,并将优势保持到了第9个小时
终局(最后1小时):人类的最终胜利
比赛进入最后冲刺阶段,AI的进步开始放缓,面临着“超时”(TLE)和收益递减的压力。而另一边,冠军选手Psyho持续提交着优异的解决方案,不断扩大领先优势。最终,随着比赛结束,Psyho锁定胜局,为人类赢得了这场对决
赛后
冠军Psyho在赛后坦言自己“精疲力竭”,在过去三天里仅睡了约10个小时。OpenAI的直播团队也提到,Psyho在参赛时几乎是靠着1小时的睡眠在支撑
一个有趣的细节是,赛后有人在社媒上问Psyho,他是否使用了如Cursor或Windsurf这类AI辅助编程工具来提高效率,Psyho说没有,只用了普通的VS Code,加上一些基本的自动补全来加速重复性工作

这次比赛证明了,OpenAI的模型已经具备了以下关键能力:
-
1. 持续性推理能力:在长达10小时的竞赛中,模型能够保持专注,持续分析问题并产出解决方案,而不是在短暂爆发后就陷入停滞 -
2. 战略性探索:模型从最初“不建墙”的简单策略,进化到中途开始“建墙”,再到后期探索出“更好的建墙和资源调度”,这展示了它具备战略调整和探索更优解空间的能力 -
3. 渐进式改进:模型并非一步到位,而是在10小时内通过不断提交、获取反馈、再优化的循环来逐步提升分数。这模拟了人类专家解决难题时的迭代过程
(文:AI寒武纪)