OpenAI：o4或o5将接管AI研发，AGI已达临界点？！

AGI临界点已到，AI自举爆发将至！

OpenAI知名研究人员频频暗示，o1的真实意图远不止于此。

传奇黑客Gwern更是放出了一个令人震撼的预测：我们已经达到了「递归自我改进」的临界点，o4或o5就能接管AI研发的剩余工作。

o1的隐藏使命：数据工厂

原来，o1的主要价值并不是用来部署，而是为后续模型生成训练数据！

每一个o1解决的问题，都将成为o3的训练数据点。当o1最终找到正确答案时，就能生成一份干净的对话记录，用来训练更精确的直觉。

这也解释了为什么Anthropic没有发布Claude-3.6-opus——它并没有失败，而是选择将其保留为内部模型，蒸馏出体积小但智能惊人的Claude-3.6-sonnet。

Gwern对OpenAI发布o1-pro都感到些许惊讶，认为他们本可以将这些计算资源用于o3的自举训练。

OpenAI员工的狂喜

OpenAI的员工们最近在Twitter上表现出异常的乐观，几乎到了欣喜若狂的地步。

Gwern认为，这是因为他们亲眼见证了从最初的4o模型到o3（以及现在的进展！）的惊人提升。

就像观看AlphaGo的等级分曲线：它不断上升……再上升……继续上升……

OpenAI似乎已经「突破」了，终于跨过了最后的临界门槛。

从仅仅领先竞争对手几年的尖端AI研究，进入了真正的「起飞期」。

o3的惊人表现

OpenAI最新发布的o3模型展现出了惊人的性能：

在Codeforces上获得2727分，成为全球排名第175位的竞赛程序员
在FrontierMath上得分25%，而这些问题「需要专业数学家花费数小时才能解决」
在GPQA上得分88%，其中70%就代表博士级的科学知识水平
在ARC-AGI上得分88%，而普通人在这种高难度视觉推理问题上的平均分只有75%

更令人惊讶的是，o3-mini在许多编程任务上能以更低的成本超越o1的表现！

AGI已无悬念？

Sam Altman在2024年11月说：「我能看到一条道路，我们正在做的工作会不断积累，过去三年的进步速度将在未来三年或六年或九年内持续」。

一周前，他更是直言：「我们现在确信知道如何构建传统意义上的AGI……我们开始将目标转向超越这一点，瞄准真正意义上的超级智能。」

在Gwern看来，这意味着OpenAI已经掌握了递归自我改进的关键，o4或o5将能够自动化AI研发并完成剩余的工作。

至于其他公司？

「让DeepSeek追逐他们的尾灯吧，」Gwern说，「一旦超级智能研究能够自给自足，他们就再也得不到竞争所需的大型计算资源了。」

Deekseek:

这真的可能吗？

从最初的4o模型到现在的o3，进步速度就像看着AlphaGo的等级分曲线：它不断上升……再上升……继续上升……

Gwern指出，如果简单的搜索就能奏效，国际象棋早在上世纪60年代就该被解决了。

想要让一群猴子在打字机上敲出「Hello World」也许还能行，但要想在质子衰变前敲出完整的《哈姆雷特》，你最好还是去克隆莎士比亚。

而现在，OpenAI已经证实o3-mini在许多编程任务上能以更低的成本超越o1的表现。

这个趋势很可能会持续下去。

后果就是，外部可能永远看不到中间模型了——就像围棋选手从未见过AlphaZero训练过程中的随机检查点一样。

Metaculus和Manifold Market的AGI预测时间都提前了一年。虽然这些预测平台可能已经将推理计算扩展的影响计入其中，但AGI的脚步，似乎正在加快。

威胁模型的改变

过去我们担心AGI一旦出现就能廉价部署数亿个副本，但现实可能并非如此。

要知道，运行一次o3的高性能任务就要花费3000美元！

这意味着恐怖分子即使窃取了前沿模型,也很难筹集足够的资金和基础设施来运行它。就算是国家级别的窃取者，在推理计算范式下，拥有最多芯片和算力的国家也能轻松胜出。

思维链监督：福是祸？

如果模型的思考过程更多地体现在人类可理解的思维链中，而不是内部激活。

这对AI安全来说是个好消息。通过人类监督和可扩展的监督机制，我们能更好地控制AI系统。

但Meta最近的Coconut技术让人担忧——它能让模型在不使用语言的情况下进行连续推理。

虽然这可能提供性能优势，Marius Hobbhahn说到：「为了边际性能提升而牺牲可理解的思维链，这是在搬起石头砸自己的脚。」

强化学习的隐忧

OpenAI公开承认使用强化学习来改进o系列模型的思维链输出。这可能带来一些担忧:

通过强化学习优化思维链比优化基础模型更便宜
长链思维链的强化学习反馈可能提供更高质量的信号
OpenAI可能使用某种「元级控制器」来在不同的「思维树」分支间进行导航

强化学习过度优化是许多AI安全威胁模型的起源，包括「激励权力寻求」。

虽然基于过程的监督看起来比基于结果的监督更安全，但最新研究表明这种组合反而可能降低模型推理的可解释性。

新的安全挑战

如果第一批AGI(例如o5)采用推理计算范式，它们的参数量可能比传统同等性能的模型(如GPT-6)要小得多。

这意味着:

小模型更容易被窃取
但由于运行成本高昂，被盗模型的威胁大大降低
模型特征可能更密集地嵌入在较小的网络中，增加了解释性的难度
芯片专业化带来新的出口管制挑战

AI研发的最后一程，或许，已经开始了。

（文：AGI Hunt）

欢迎分享

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31