OpenAI的o3模型:回归强化学习,重新定义AI技术边界

在最近的“12 Days of OpenAI” 活动中发布的 o3模型,不仅意味着技术的进步,也可能重新定义 AI 技术的边界,为未来 AI 的发展方向提供重要指引。

2024 年被称为 AI 技术的巩固之年,整个行业在技术能力上逐渐趋同,多家公司达到了 GPT-4 水平,但却鲜有颠覆性突破。然而,o3 的发布以一种迅速且深远的方式打破了这一沉寂的局面。从最初的 o1 到即将向公众开放的 o3(为避免商标纠纷,OpenAI直接跳过o2),这一系列模型不仅展示了推理能力的显著进步,还通过实用性和可扩展性的提升,使 AI 应用的可能性进一步扩大。

更重要的是,o3 的出现回应了长期以来对 AI 模型实际价值的质疑——它以令人信服的方式表明,推理模型不仅在科学领域表现卓越,还可以通过系统性优化和场景探索,推动 AI 在更广泛的领域落地。展望 2025 年,随着强化学习训练和大规模公开测试的引入,o3 有望成为下一波 AI 创新的核心引擎,推动整个行业迎来全新的突破。

在单纯依赖网络数据进行预训练出现瓶颈之际,o3 的发布标志着AI正在攀登下一座高峰。因为o3 在推理评估方面实现了重要的跃升:


  • 首个超过 ARC AGI 奖 85% 完成率门槛的模型(注意:这一成绩是在公开数据集上完成的,而非测试数据集,并且超出了成本限制)。

  • 在全新 Frontier Math 基准上取得重大突破,从 2% 提升至 25%。

  • 在主要编程基准(如 SWE-Bench-Verified)上的性能有了显著提高

  • 发布仅三个月即展现如此巨大的进展。OpenAI 研究员Jason Wei在 X 上表示


“更重要的是,从 o1 到 o3 的进展仅用了三个月,这表明新范式的进展速度有多快……比每 1-2 年一次新模型的预训练范式要快得多。”


另一位 OpenAI 研究员John Hallman发表了更为直白的声明


“当 Sam 和我们的研究人员说 [通用人工智能] 即将到来时,我们这样做并不是为了向您推销酷炫的援助、2000 美元的订阅费,或者诱骗您投资我们的下一轮。真的来了。”


与此同时,OpenAI 发布了一篇关于“审慎对齐”(Deliberative Alignment)的博客和研究论文,展示了 o1 级别模型在安全性和对齐研究中的潜力。这也引发人类更大的想象力:增强的推理能力能否在可验证领域之外产生价值?


一、o3概述


OpenAI 的 o3 模型于其 “12 Days of OpenAI” 发布活动的最后一天正式公布。这一发布意味着大模型在多个领域超越此前最先进模型(Gemini 1.5 Pro 和 Claude 3.5 Sonnet New)的显著成绩,引发了广泛关注。


在 OpenAI 的博客中,有关 o1 系列模型的柱状图结果中常被忽略的细节是阴影部分的意义。首篇 o1 博客的说明中提到:


  • 实心柱 表示单次推理(pass@1)的准确率。

  • 阴影部分 表示通过 64 次采样并进行多数票(共识)计算后的表现。

这一细节表明,对于 o1 模型以及更高版本模型的最佳表现,多次采样共识是至关重要的。这种方法并不需要依赖复杂的树搜索或中间表示,而是通过并行生成输出达到最高得分。事实上,o1 pro 以及本次提到的 ARC 奖结果,均利用了这一策略来进行优化。


Frontier Math 基准测试于 11 月 7 日正式引入,被视为 AI 能力尚未突破的开放领域之一。这一基准不仅以其高难度著称,还得到了数学界顶尖人物的定性评价。


陶哲轩(2006 年菲尔兹奖得主)表示:

“这些问题极为棘手……我认为它们至少在未来几年内会对 AI 构成挑战。”


蒂莫西·高尔斯(2006 年菲尔兹奖得主)评价:

“[我看到的问题] 并不属于我的研究领域,且看起来都让我完全无从下手……这些问题的难度似乎远高于 IMO(国际数学奥林匹克)问题。”

o3 模型在该基准上直接取得了 25% 的成绩,这不仅是目前唯一达到两位数的模型,还一跃成为当前的顶尖表现。这一成就大大提升了 o3 在推理模型中的地位。


在编程任务中,o3 同样取得了里程碑式的进展:


  • SWE-Bench Verified:o3 在这一编程基准上取得了 71.7% 的得分,远超此前的最高水平。

  • Codeforces 表现:o3 的共识投票得分(具体采样数量未披露)达到了 2727 分,相当于国际特级大师水平,排名全球人类顶尖竞争程序员的前 200 名。


此外,值得注意的是,o3-mini 的表现虽然略逊于 o3,但成本显著降低。


o3 的直播发布会以一项最终突破成果画上句号:有效解决 ARC AGI 挑战。这是人工智能领域的重大里程碑,标志着推理模型在复杂任务上的能力实现了质的飞跃。


二、ARC(抽象与推理语料库)的突破


ARC(The Abstraction and Reasoning Corpus)是由 François Chollet 在其 2019 年的论文《On The Measure of Intelligence》中提出的一种 AI 评估工具。ARC 的设计初衷是更贴近对人类智能的测量,并引入了基于算法信息论的新定义,将智能描述为 技能获取的效率,特别强调范围、泛化难度、先验知识和经验的重要性。Chollet 认为,ARC 可以用于衡量一种类似人类的通用智能,并为 AI 系统和人类智力比较提供基础。


2024 年 6 月启动的 ARC AGI 奖 是一项针对 ARC 数据集的挑战,奖励金额高达 100 万美元,奖励第一款在特定条件下解决其私有测试集的模型。任务的成功标准是 85% 的准确率



在 o1 系列模型发布之前,OpenAI 最强的模型 GPT-4o 在该评估中的准确率仅为 5%。然而,随着 o1 和 o3 等推理模型的不断优化,OpenAI 在 ARC 上的表现实现了指数级增长。ARC 奖联合创始人 Mike Knoop 总结了这一进展:


  • GPT-2 (2019): 0%

  • GPT-3 (2020): 0%

  • GPT-4 (2023): 2%

  • GPT-4o (2024): 5%

  • o1-preview (2024): 21%

  • o1 high (2024): 32%

  • o1 Pro (2024): ~50%

  • o3 tuned low (2024): 76%

  • o3 tuned high (2024): 87%


几个月前,业界还普遍认为解决 ARC-AGI 挑战极其困难。然而,事实证明,o3 的性能已超出预期,谁也没有料到o3在短时间内取得如此显著的突破。


根据 François Chollet 的描述,o3 模型在两个 ARC-AGI 数据集上进行了测试:


  • 半私有评估集(Semi-Private Eval):100 个私有任务,用于检测模型的过拟合情况。

  • 公开评估集(Public Eval):400 个公开任务。


OpenAI 指导下的测试包括两种计算配置:


  • 高效率模式:采样次数为 6

  • 低效率模式:采样次数为 1024(计算量为高效率模式的 172 倍)


o3 最终测试的性能如下:



从上表可以看出, o3 已经在技术上成功赢得ARC 挑战。但由于超出成本限制且未开源,奖项尚未正式被领取。


三、o3 的架构、成本与训练


ARC AGI 团队与 OpenAI 密切合作,估算了 o3 模型的运行成本。为了更准确地评估计算资源使用情况,ARC-AGI 在评估私有数据集时引入了一个新的要求:记录任务的总成本和单任务成本,这被视为 FLOPs 的近似值或直接计算资源的衡量方式。这与 ARC 奖公开排行榜的规则一致:

解决 500 个任务(包括公开评估集中的 400 个任务和半私有评估集中的 100 个任务)的运行成本不得超过 10,000 美元,包括调用商用 API 的费用。

在这些任务中,o3 的成本远超这一门槛。根据 ARC 奖的数据,o3 每次查询的成本超过 1000 美元。


根据 ARC 奖博客和 OpenAI 的声明,o3 的显著进步可能是 o1 架构的扩展与训练规模的放大。推理扩展法则的核心原则表明,通过单一流(single-stream generation)的多样本采样可以显著提高性能。以下是推测中的几个关键点:


  • 基础模型规模的扩大:o3 的基础模型可能是 OpenAI 内部代号为 “Orion”(可能是 GPT-5)的模型,或者是基于 Orion 进行强化训练的结果。更大的基础模型(2 到 5 倍规模)可以解释 o3 在计算成本上的增长。

  • 强化学习的扩展:OpenAI 在强化学习训练中的探索表明,长上下文推理(long-context reasoning)是当前推动性能提升的关键领域。

  • 高效采样策略:与 o1 pro 类似,o3 也可能使用了共识投票(如 consensus@N)等方法,而不是树搜索(tree search)。这种方法在性能与成本之间取得了有效平衡。


尽管 o3 的具体细节仍不明确,但从 ARC 奖的数据和 OpenAI 的直播展示来看,o3 是在 o1 基础上的进一步扩展。这也表明,单模型的强化学习与推理扩展仍是当前深度学习的主流方向。


尽管目前 o3 的高性能配置成本高昂,但 AI 推理的成本正在快速下降。未来几年,这种类型的智能将几乎接近于“免费”。当然免费并非零成本,而是推理成本会低于所产生的收益。我们预计随着技术的进一步发展和推理模型的普及,像 o3 这样的突破性能力可能很快成为人们日常生活中的标准工具。


四、2024: 强化学习(RL)的回归


最近,Anthropic 回顾了其联合创始人对公司构建过程的思考。在视频中,联合创始人兼 CEO Dario Amodei 提到了一条意想不到的细节:

“我们扩大这些模型规模的根本原因是它们不够智能,无法在其基础上进行 RLHF强化学习与人类反馈)。”


作为现代 RLHF 的奠基人之一,Amodei 或许早已洞察到微调技术未来的突破性发展。他的观点展现了比大多数从业者更为宏大的 RLHF 潜力视野,也揭示了其在推动人工智能能力提升中的关键作用。2024 年,强化学习及其相关方法不仅得到了全面复兴,更重新确立了它们在 AI 核心技术中的不可动摇的地位。这一年,RLHF 的成功让业界深刻意识到,将强化学习与大规模模型相结合,是通向更强人工智能的必由之路。


值得注意的是,几天后谷歌推出了Gemini 2.0 Flash Thinking ,这是一个可在其AI Studio平台上使用的实验性推理人工智能模型。它基于 Gemini 2.0 Flash 架构构建,专为多模式任务和解决编程、数学和物理等领域的复杂问题而设计。与OpenAI的推理模型类似,它结合了自我检查机制,以最大限度地减少常见的 AI 错误。


2024 年是 AI 微调技术(包括 RLHF)取得飞跃性进展的一年,类似于 o1 风格 的推理模型正在成为 AI 工具箱中的基础工具。强化学习与推理模型的结合 标志着 AI 能力迈上了新的台阶。随着 o1 和 o3 模型的崛起,AI 社区开始为未来更强大的模型训练奠定基础。这种技术的迭代与进步,既巩固了现有成果,也为未来的创新开辟了新的可能性,使 AI 技术在科学、商业和社会领域的影响力进一步扩大。

硅谷科技评论(SVTR.AI),在ChatGPT问世之际,创立于美国硅谷,依托AI创投库、AI创投会和风险投资,打造全球前沿科技(AI)创新生态系统。目前覆盖全球10W+ AI从业者,孵化案例:AI超级工程师模本科技;AI教育咨询公司高考纸鸢


联系凯瑞(pkcapital2023),加入我们,共创未来!点击文末阅读原文,访问SVTR.AI,发现更多机会与精彩内容

Startup



+



11x.ai:AI虚拟销售员,半年内突破200万美元
AlphaSense,金融界的“谷歌”
AMP Robotics,如何用AI拯救垃圾场?
Anduril Industries:AI 重新定义现代战争与和平
Anthropic:OpenAI”宫斗”背后的公司
Bardeen:让AI代理更稳更快
Brightwave,AI驱动的投研助手

Calendly:日程安排助手,AI效率工具鼻祖

Canva:从Adobe、Figma、Canva 到 OpenAI

Carta:想要取代纽交所的股权管理工具
Cerebras,打造世界最大芯片挑战AI霸主英伟达

Cohere:为企业提供大模型

Consensus:用AI解锁学术

CoreWeave:GPU租赁独角兽,英伟达的好盟友

Databricks:从数据湖到大模型人工智能战略
DeepL:从机器翻译到AI写作的语言沟通利器
Discord:腾讯多次押注,打造属于你自己的线上互动社区
DoNotPay:世界首款AI机器人律师

Duolingo:如何改写语言学习

E2B:为 AI 代理构建自动化云平台
Figma从Adobe、Figma、Canva 到 OpenAI
Figure,从体力劳动中解放全人类

Glean:重塑知识工作的未来

Grammarly:从论文查重到AI写作的沟通利器
Helion,AI的终极能源梦想
Hippocratic AI,用AI缓解全球医护人员短缺
Hugging Face:开源AI的未来
Jenni AI:如何通过AI写作实现年入千万
Letta:AI代理技术栈市场地图
Marblism:一句AI提示词自动生成各类软件
Midjourney:0融资,11人,$1亿收入
Mistral,欧洲大模型,性价比之王
MultiOn,用人工智能代理给软件装上大脑
Neuralink:让失明者重见光明,让瘫患者再次行走,让人类与AI融合永生
OpenAI:人工智能突破的前沿员工董事会丨营销丨GPT Store丨奥特曼马斯克微软产品生态
Pika:AI视频的未来
Rad AI:如何用 AI 改变医疗保健
Reddit:奥特曼押注基于兴趣社交的美版“贴吧”
Replicate:1人AI公司背后的幕后英雄
Replite:教马斯克的儿子如何写代码
Rows:一年内用户增长20倍背后的故事
Perplexity:挑战谷歌,站在AI搜索最前沿
RunwayAI视频的未来
Scale AI:如何成为数字世界的“水源”
Shein:打造下一个“中国首富”
Skild AI,打造通用机器人“大脑

SpaceX:梦想照进现实,人类星际生命的曙光

Stability AI:SD 背后的公司和创始人
Stripe:马斯克和奥特曼押注的支付王者
Substack:美版公众号,为价值付费

Superhuman:邮件超人,拥抱 AI

Telegram,俄罗斯兄弟的密聊纸飞机
Vannevar Labs:AI+国防,军事人工智能掘金者
Vercel,如何用AI引领技术开发?
Zapier:ChatGPT最受欢迎插件的过去和未来
People(找人
如何找到创业合伙人如何聘请CEO如何确定CEO的薪水如何分配股权和头衔如何组建和召开董事会选择自己的创业导师 找这种人实现快速裂变如何找到那个“改变命运”的第一位员工?
Funding(找钱
如何写商业计划书初创公司估值如何做电梯演讲如何确认真实投资意愿如何选择VC早期融资的“科学”与策略初创公司的融资生存法则风险投资人最关心的一个指标“七条法则”让投资人主动“敲门”
Vision(找方向)
性格决定创业成败如何成为亿万富翁如何做出困难的决定如何寻找创业方向如何在海外启动新产品GTM指南不要像投资人那样思考创始人与市场契合度为什么初创公司会失败什么决定创业成败如何建立社交媒体形象PMF决定初创的未来创始人的必读书单 5 点创业洞见如何做增长
AI创业
如何打造AI驱动的公司AI创业如何选赛道如何打造AI软件产品AI公司要不要融资AI初创公司商业模式AI原生公司定价策略AI初创公司增长策略

Venture



+



A16Z:全球AI产品Top100人工智能到底能做什么丨AI将会拯救世界
Air Street Capital:State of AI(2024)
Alphabet谷歌战投:全球最牛AI战投是如何炼成的人工智能战略
Altimeter:谁是AI C端赢家
Amazon:人工智能战略
Apple:产品收入变迁 AI 并购之王
Battery Ventures:AI正推动云计算的下一波增长AI正带来 4 万亿美元市场机会
Bessemer Venture Partners:Cloud 100(2024)如何打造AI核心竞争力
Bond:AI将改变教育和教学方法
Coatue:AI革命AI是超级周期的开始
Cowboy:AI大势所趋
Daniel Gross:硅谷90后AI投资人
Dawn Capital:如何通过人工智能增强人脉
Elad Gil:关于人工智能我所不知道的事情
Emergence:生成式 AI 六大最新趋势
FirstMark:MAD 24问,AI 2023年总结,2024年展望
Forerunner:超个性化和动态交互才是未来
Foundation Capital:服务即软件的万亿机会
Founders Fund:如何投出下一个独角兽彼得·泰尔泰尔研究员
General Catalyst:AI+医疗支持者
ICONIQ:小扎的朋友圈AI成为大企业战略核心
Insight Partners:AI应用将如何实现人机协同AI Agent正在颠覆自动化
Lightspeed:AI+法律市场机会地图
M12(微软):如何抢占AI投资制高点收入拆解
Menlo Ventures:2024企业Gen AI现状报告AI代理全面崛起Gen AI 应用拐点已到AI+安全市场地图企业AI架构的设计原则
NVIDIA:收入按产品线拆解AI投资策略
Sam Altman(山姆·奥特曼):如何做早期投资丨地产生意投资帝国婚礼阅读清单
Sapphire:AI原生应用AI进入调整期AI 行研 丨 销售人工智能如何重塑 GTM
Scale Venture Partners:如何用AI工具解决硬件难题?
Sequoia(红杉资本):如何做投资代理型AI应用崛起生成式AI进入第二阶段
Sierra Ventures:垂直场景将是最大的创业机会
SOSV: 从草根到帝国
TRAC:风投界的水晶球
Thrive Capital:高位接盘OpenAI
Wing Venture Capital:2024年企业科技 30 强(ET 30)
YC:全球排名第一的AI投资机构给年轻创始人建议如何独立思考YC与A16Z的押注有何异同
20VC:从播客主持人到风投大佬
投资行业

精品基金/超级基金AI驱动VC通才/专才风投人VC/PE孵化器加速器初创工作室

投资技能
如何及早识别独角兽如何避免7大投资陷阱合伙人是怎么炼成的Souring的艺术颜值如何影响VC决策如何快速解读对方性格硅谷投资人的武器库如何用数据控制初创公司团队风险什么决定创业成败
AI投资
如何评估AI初创公司海外投资人谈AI新趋势应该关注哪些AI公司AI 创投七大新趋势全球AI创投生态全球AI投资机构Top10

Technology



+



AI工程师有多强?3天上线全球首个AI数库
“AI张雪峰”诞生,北大团队用 AI 重塑教育咨询
1人团队,百万营收的AI套壳
2024 年必读人工智能书单
加密信条:数字货币的前世、今生和未来
内容创作指南,如何通过写作赚钱?
传统公司如何抓住AI浪潮?
全球七大科技巨头的 4000 亿美元 AI 战略布局
全球 Gen AI 独角兽大盘点,中国4家大模型上榜
AI大模型:海外 数学 性价比 编程 医疗 评估 训练成本 | 小模型
AI 创始人 华裔创始人 北美科技人才中心地图职业经历教育背景斯坦福普林斯顿丨多伦多大学
AI 公司地理和行业分布 以色列 德国 旧金山湾区 欧洲法国
福布斯AI 50 斯坦福AI指数 企业科技AI 30 高增长AI 50 | C端AI 50 | 工具AI 50 | SVTR AI 100 | 自力更生AI 25丨2024年全球最具价值独角兽丨Gen AI专利公司 Top20丨开源 AI 初创公司 Top 75丨开源 AI 开发者工具 Top 20丨全球数据中心按功耗排名 Top 50丨PH 2023年度最佳应用丨2023年北美新增独角兽
AI代理:创始人该如何站上3000亿美元的风口?
AI+国防安防:如何重新定义现代战场的核心竞争力
AI+人力资源:用科技重塑就业与招聘的未来
AI+搜索:全球新锐公司谁能杀出重围?
AI+社交:该怎么玩?
AI+编程:公司排行榜市场地图丨AI工程师SaaS的新曙光
AI+金融:如何缔造下一个金融科技传奇大模型在金融投资领域的应用AI将如何改变会计
AI+游戏:市场研究报告初创公司Top 10
AI+机器人
AI+医疗:市场地图心理/精神公司
AI+教育:市场地图
AI+客服:市场地图
AI+法律:市场地图
AI+视频:市场地图3D视频
AI+生产力工具市场地图
AI+科研

Review



+


001 002 003 004 005 006 007 008 009 010
011 012 013 014 015 016 017 018 019 020
021 022 023 024 025 026 027 028 029 030
031 032 033 034 035 036 037 038 039 040
041 042 043 044 045 046 047 048
049
050 
051 052 
053
054 
055
056
057
058
059
060
061
062 
063 
064
065 066
067
068 069 070
071  072 073 074 075 076 077 078 079 080
081 082 083 084

(文:硅谷科技评论)

欢迎分享

发表评论