在单纯依赖网络数据进行预训练出现瓶颈之际,o3 的发布标志着AI正在攀登下一座高峰。因为o3 在推理评估方面实现了重要的跃升:
-
首个超过 ARC AGI 奖 85% 完成率门槛的模型(注意:这一成绩是在公开数据集上完成的,而非测试数据集,并且超出了成本限制)。
-
在全新 Frontier Math 基准上取得重大突破,从 2% 提升至 25%。
-
在主要编程基准(如 SWE-Bench-Verified)上的性能有了显著提高。
-
发布仅三个月即展现如此巨大的进展。OpenAI 研究员Jason Wei在 X 上表示:
另一位 OpenAI 研究员John Hallman发表了更为直白的声明:
与此同时,OpenAI 发布了一篇关于“审慎对齐”(Deliberative Alignment)的博客和研究论文,展示了 o1 级别模型在安全性和对齐研究中的潜力。这也引发人类更大的想象力:增强的推理能力能否在可验证领域之外产生价值?
一、o3概述
OpenAI 的 o3 模型于其 “12 Days of OpenAI” 发布活动的最后一天正式公布。这一发布意味着大模型在多个领域超越此前最先进模型(Gemini 1.5 Pro 和 Claude 3.5 Sonnet New)的显著成绩,引发了广泛关注。
在 OpenAI 的博客中,有关 o1 系列模型的柱状图结果中常被忽略的细节是阴影部分的意义。首篇 o1 博客的说明中提到:
-
实心柱 表示单次推理(pass@1)的准确率。
-
阴影部分 表示通过 64 次采样并进行多数票(共识)计算后的表现。
这一细节表明,对于 o1 模型以及更高版本模型的最佳表现,多次采样共识是至关重要的。这种方法并不需要依赖复杂的树搜索或中间表示,而是通过并行生成输出达到最高得分。事实上,o1 pro 以及本次提到的 ARC 奖结果,均利用了这一策略来进行优化。
Frontier Math 基准测试于 11 月 7 日正式引入,被视为 AI 能力尚未突破的开放领域之一。这一基准不仅以其高难度著称,还得到了数学界顶尖人物的定性评价。
陶哲轩(2006 年菲尔兹奖得主)表示:
蒂莫西·高尔斯(2006 年菲尔兹奖得主)评价:
o3 模型在该基准上直接取得了 25% 的成绩,这不仅是目前唯一达到两位数的模型,还一跃成为当前的顶尖表现。这一成就大大提升了 o3 在推理模型中的地位。
在编程任务中,o3 同样取得了里程碑式的进展:
-
SWE-Bench Verified:o3 在这一编程基准上取得了 71.7% 的得分,远超此前的最高水平。
-
Codeforces 表现:o3 的共识投票得分(具体采样数量未披露)达到了 2727 分,相当于国际特级大师水平,排名全球人类顶尖竞争程序员的前 200 名。
此外,值得注意的是,o3-mini 的表现虽然略逊于 o3,但成本显著降低。
o3 的直播发布会以一项最终突破成果画上句号:有效解决 ARC AGI 挑战。这是人工智能领域的重大里程碑,标志着推理模型在复杂任务上的能力实现了质的飞跃。
二、ARC(抽象与推理语料库)的突破
ARC(The Abstraction and Reasoning Corpus)是由 François Chollet 在其 2019 年的论文《On The Measure of Intelligence》中提出的一种 AI 评估工具。ARC 的设计初衷是更贴近对人类智能的测量,并引入了基于算法信息论的新定义,将智能描述为 技能获取的效率,特别强调范围、泛化难度、先验知识和经验的重要性。Chollet 认为,ARC 可以用于衡量一种类似人类的通用智能,并为 AI 系统和人类智力比较提供基础。
2024 年 6 月启动的 ARC AGI 奖 是一项针对 ARC 数据集的挑战,奖励金额高达 100 万美元,奖励第一款在特定条件下解决其私有测试集的模型。任务的成功标准是 85% 的准确率。
在 o1 系列模型发布之前,OpenAI 最强的模型 GPT-4o 在该评估中的准确率仅为 5%。然而,随着 o1 和 o3 等推理模型的不断优化,OpenAI 在 ARC 上的表现实现了指数级增长。ARC 奖联合创始人 Mike Knoop 总结了这一进展:
-
GPT-2 (2019): 0%
-
GPT-3 (2020): 0%
-
GPT-4 (2023): 2%
-
GPT-4o (2024): 5%
-
o1-preview (2024): 21%
-
o1 high (2024): 32%
-
o1 Pro (2024): ~50%
-
o3 tuned low (2024): 76%
-
o3 tuned high (2024): 87%
几个月前,业界还普遍认为解决 ARC-AGI 挑战极其困难。然而,事实证明,o3 的性能已超出预期,谁也没有料到o3在短时间内取得如此显著的突破。
根据 François Chollet 的描述,o3 模型在两个 ARC-AGI 数据集上进行了测试:
-
半私有评估集(Semi-Private Eval):100 个私有任务,用于检测模型的过拟合情况。
-
公开评估集(Public Eval):400 个公开任务。
OpenAI 指导下的测试包括两种计算配置:
-
高效率模式:采样次数为 6
-
低效率模式:采样次数为 1024(计算量为高效率模式的 172 倍)
o3 最终测试的性能如下:
从上表可以看出, o3 已经在技术上成功赢得ARC 挑战。但由于超出成本限制且未开源,奖项尚未正式被领取。
三、o3 的架构、成本与训练
ARC AGI 团队与 OpenAI 密切合作,估算了 o3 模型的运行成本。为了更准确地评估计算资源使用情况,ARC-AGI 在评估私有数据集时引入了一个新的要求:记录任务的总成本和单任务成本,这被视为 FLOPs 的近似值或直接计算资源的衡量方式。这与 ARC 奖公开排行榜的规则一致:
解决 500 个任务(包括公开评估集中的 400 个任务和半私有评估集中的 100 个任务)的运行成本不得超过 10,000 美元,包括调用商用 API 的费用。
在这些任务中,o3 的成本远超这一门槛。根据 ARC 奖的数据,o3 每次查询的成本超过 1000 美元。
根据 ARC 奖博客和 OpenAI 的声明,o3 的显著进步可能是 o1 架构的扩展与训练规模的放大。推理扩展法则的核心原则表明,通过单一流(single-stream generation)的多样本采样可以显著提高性能。以下是推测中的几个关键点:
-
基础模型规模的扩大:o3 的基础模型可能是 OpenAI 内部代号为 “Orion”(可能是 GPT-5)的模型,或者是基于 Orion 进行强化训练的结果。更大的基础模型(2 到 5 倍规模)可以解释 o3 在计算成本上的增长。
-
强化学习的扩展:OpenAI 在强化学习训练中的探索表明,长上下文推理(long-context reasoning)是当前推动性能提升的关键领域。
-
高效采样策略:与 o1 pro 类似,o3 也可能使用了共识投票(如 consensus@N)等方法,而不是树搜索(tree search)。这种方法在性能与成本之间取得了有效平衡。
尽管 o3 的具体细节仍不明确,但从 ARC 奖的数据和 OpenAI 的直播展示来看,o3 是在 o1 基础上的进一步扩展。这也表明,单模型的强化学习与推理扩展仍是当前深度学习的主流方向。
尽管目前 o3 的高性能配置成本高昂,但 AI 推理的成本正在快速下降。未来几年,这种类型的智能将几乎接近于“免费”。当然免费并非零成本,而是推理成本会低于所产生的收益。我们预计随着技术的进一步发展和推理模型的普及,像 o3 这样的突破性能力可能很快成为人们日常生活中的标准工具。
四、2024: 强化学习(RL)的回归
最近,Anthropic 回顾了其联合创始人对公司构建过程的思考。在视频中,联合创始人兼 CEO Dario Amodei 提到了一条意想不到的细节:
“我们扩大这些模型规模的根本原因是它们不够智能,无法在其基础上进行 RLHF(强化学习与人类反馈)。”
作为现代 RLHF 的奠基人之一,Amodei 或许早已洞察到微调技术未来的突破性发展。他的观点展现了比大多数从业者更为宏大的 RLHF 潜力视野,也揭示了其在推动人工智能能力提升中的关键作用。2024 年,强化学习及其相关方法不仅得到了全面复兴,更重新确立了它们在 AI 核心技术中的不可动摇的地位。这一年,RLHF 的成功让业界深刻意识到,将强化学习与大规模模型相结合,是通向更强人工智能的必由之路。
值得注意的是,几天后谷歌推出了Gemini 2.0 Flash Thinking ,这是一个可在其AI Studio平台上使用的实验性推理人工智能模型。它基于 Gemini 2.0 Flash 架构构建,专为多模式任务和解决编程、数学和物理等领域的复杂问题而设计。与OpenAI的推理模型类似,它结合了自我检查机制,以最大限度地减少常见的 AI 错误。
2024 年是 AI 微调技术(包括 RLHF)取得飞跃性进展的一年,类似于 o1 风格 的推理模型正在成为 AI 工具箱中的基础工具。强化学习与推理模型的结合 标志着 AI 能力迈上了新的台阶。随着 o1 和 o3 模型的崛起,AI 社区开始为未来更强大的模型训练奠定基础。这种技术的迭代与进步,既巩固了现有成果,也为未来的创新开辟了新的可能性,使 AI 技术在科学、商业和社会领域的影响力进一步扩大。
硅谷科技评论(SVTR.AI),在ChatGPT问世之际,创立于美国硅谷,依托AI创投库、AI创投会和风险投资,打造全球前沿科技(AI)创新生态系统。目前覆盖全球10W+ AI从业者,孵化案例:AI超级工程师模本科技;AI教育咨询公司高考纸鸢。
联系凯瑞(pkcapital2023),加入我们,共创未来!点击文末阅读原文,访问SVTR.AI,发现更多机会与精彩内容!
Startup
+
11x.ai:AI虚拟销售员,半年内突破200万美元 |
AlphaSense,金融界的“谷歌” |
AMP Robotics,如何用AI拯救垃圾场? |
Anduril Industries:AI 重新定义现代战争与和平 |
Anthropic:OpenAI”宫斗”背后的公司 |
Bardeen:让AI代理更稳更快 |
Brightwave,AI驱动的投研助手 |
Calendly:日程安排助手,AI效率工具鼻祖 |
Canva:从Adobe、Figma、Canva 到 OpenAI |
Carta:想要取代纽交所的股权管理工具 |
Cerebras,打造世界最大芯片挑战AI霸主英伟达 |
Cohere:为企业提供大模型 |
Consensus:用AI解锁学术 |
CoreWeave:GPU租赁独角兽,英伟达的好盟友 |
Databricks:从数据湖到大模型丨人工智能战略 |
DeepL:从机器翻译到AI写作的语言沟通利器 |
Discord:腾讯多次押注,打造属于你自己的线上互动社区 |
DoNotPay:世界首款AI机器人律师 |
Duolingo:如何改写语言学习 |
E2B:为 AI 代理构建自动化云平台 |
Figma:从Adobe、Figma、Canva 到 OpenAI |
Figure,从体力劳动中解放全人类 |
Glean:重塑知识工作的未来 |
Grammarly:从论文查重到AI写作的沟通利器 |
Helion,AI的终极能源梦想 |
Hippocratic AI,用AI缓解全球医护人员短缺 |
Hugging Face:开源AI的未来 |
Jenni AI:如何通过AI写作实现年入千万 |
Letta:AI代理技术栈市场地图 |
Marblism:一句AI提示词自动生成各类软件 |
Midjourney:0融资,11人,$1亿收入 |
Mistral,欧洲大模型,性价比之王 |
MultiOn,用人工智能代理给软件装上大脑 |
Neuralink:让失明者重见光明,让瘫患者再次行走,让人类与AI融合永生 |
OpenAI:人工智能突破的前沿丨员工丨董事会丨营销丨GPT Store丨奥特曼丨马斯克丨微软丨产品生态 |
Pika:AI视频的未来 |
Rad AI:如何用 AI 改变医疗保健 |
Reddit:奥特曼押注基于兴趣社交的美版“贴吧” |
Replicate:1人AI公司背后的幕后英雄 |
Replite:教马斯克的儿子如何写代码 |
Rows:一年内用户增长20倍背后的故事 |
Perplexity:挑战谷歌,站在AI搜索最前沿 |
Runway:AI视频的未来 |
Scale AI:如何成为数字世界的“水源” |
Shein:打造下一个“中国首富” |
Skild AI,打造通用机器人“大脑 |
SpaceX:梦想照进现实,人类星际生命的曙光 |
Stability AI:SD 背后的公司和创始人 |
Stripe:马斯克和奥特曼押注的支付王者 |
Substack:美版公众号,为价值付费 |
Superhuman:邮件超人,拥抱 AI |
Telegram,俄罗斯兄弟的密聊纸飞机 |
Vannevar Labs:AI+国防,军事人工智能掘金者 |
Vercel,如何用AI引领技术开发? |
Zapier:ChatGPT最受欢迎插件的过去和未来 |
People(找人) |
如何找到创业合伙人丨如何聘请CEO丨如何确定CEO的薪水丨如何分配股权和头衔丨如何组建和召开董事会丨选择自己的创业导师 丨找这种人实现快速裂变丨如何找到那个“改变命运”的第一位员工? |
Funding(找钱) |
如何写商业计划书丨初创公司估值丨如何做电梯演讲丨如何确认真实投资意愿丨如何选择VC丨早期融资的“科学”与策略丨初创公司的融资生存法则丨风险投资人最关心的一个指标丨“七条法则”让投资人主动“敲门” |
Vision(找方向) |
性格决定创业成败丨如何成为亿万富翁丨如何做出困难的决定丨如何寻找创业方向丨如何在海外启动新产品丨GTM指南丨不要像投资人那样思考丨创始人与市场契合度丨为什么初创公司会失败丨什么决定创业成败丨如何建立社交媒体形象丨PMF决定初创的未来丨创始人的必读书单丨 5 点创业洞见丨如何做增长 |
AI创业 |
如何打造AI驱动的公司丨AI创业如何选赛道丨如何打造AI软件产品丨AI公司要不要融资丨AI初创公司商业模式丨AI原生公司定价策略丨AI初创公司增长策略 |
Venture
+
A16Z:全球AI产品Top100丨人工智能到底能做什么丨AI将会拯救世界 |
Air Street Capital:State of AI(2024) |
Alphabet谷歌战投:全球最牛AI战投是如何炼成的丨人工智能战略 |
Altimeter:谁是AI C端赢家 |
Amazon:人工智能战略 |
Apple:产品收入变迁丨 AI 并购之王 |
Battery Ventures:AI正推动云计算的下一波增长丨AI正带来 4 万亿美元市场机会 |
Bessemer Venture Partners:Cloud 100(2024)丨如何打造AI核心竞争力 |
Bond:AI将改变教育和教学方法 |
Coatue:AI革命丨AI是超级周期的开始 |
Cowboy:AI大势所趋 |
Daniel Gross:硅谷90后AI投资人 |
Dawn Capital:如何通过人工智能增强人脉 |
Elad Gil:关于人工智能我所不知道的事情 |
Emergence:生成式 AI 六大最新趋势 |
FirstMark:MAD 24问,AI 2023年总结,2024年展望 |
Forerunner:超个性化和动态交互才是未来 |
Foundation Capital:服务即软件的万亿机会 |
Founders Fund:如何投出下一个独角兽丨彼得·泰尔丨泰尔研究员 |
General Catalyst:AI+医疗支持者 |
ICONIQ:小扎的朋友圈丨AI成为大企业战略核心 |
Insight Partners:AI应用将如何实现人机协同丨AI Agent正在颠覆自动化 |
Lightspeed:AI+法律市场机会地图 |
M12(微软):如何抢占AI投资制高点丨收入拆解 |
Menlo Ventures:2024企业Gen AI现状报告丨AI代理全面崛起丨Gen AI 应用拐点已到丨AI+安全市场地图丨企业AI架构的设计原则 |
NVIDIA:收入丨AI投资策略 |
Sam Altman(山姆·奥特曼):如何做早期投资丨地产生意丨投资帝国丨婚礼丨阅读清单 |
Sapphire:AI原生应用丨AI进入调整期丨AI 行研 丨 销售人工智能如何重塑 GTM |
Scale Venture Partners:如何用AI工具解决硬件难题? |
Sequoia(红杉资本):如何做投资丨代理型AI应用崛起丨生成式AI进入第二阶段 |
Sierra Ventures:垂直场景将是最大的创业机会 |
SOSV: 从草根到帝国 |
TRAC:风投界的水晶球 |
Thrive Capital:高位接盘OpenAI |
Wing Venture Capital:2024年企业科技 30 强(ET 30) |
YC:全球排名第一的AI投资机构丨给年轻创始人建议丨如何独立思考丨YC与A16Z的押注有何异同 |
20VC:从播客主持人到风投大佬 |
投资行业 |
精品基金/超级基金丨AI驱动VC丨通才/专才风投人丨VC/PE丨孵化器丨加速器丨初创工作室 |
投资技能 |
如何及早识别独角兽丨如何避免7大投资陷阱丨合伙人是怎么炼成的丨Souring的艺术丨颜值如何影响VC决策丨如何快速解读对方性格丨硅谷投资人的武器库丨如何用数据控制初创公司团队风险丨什么决定创业成败 |
AI投资 |
如何评估AI初创公司丨海外投资人谈AI新趋势丨应该关注哪些AI公司丨AI 创投七大新趋势丨全球AI创投生态丨全球AI投资机构Top10 |
Technology
+
AI工程师有多强?3天上线全球首个AI数库 |
“AI张雪峰”诞生,北大团队用 AI 重塑教育咨询 |
1人团队,百万营收的AI套壳 |
2024 年必读人工智能书单 |
加密信条:数字货币的前世、今生和未来 |
内容创作指南,如何通过写作赚钱? |
传统公司如何抓住AI浪潮? |
全球七大科技巨头的 4000 亿美元 AI 战略布局 |
全球 Gen AI 独角兽大盘点,中国4家大模型上榜 |
AI大模型:海外 | 数学 | 性价比 | 编程 | 医疗 | 评估 | 训练成本 | 小模型 |
AI 创始人 | 华裔创始人 | 北美科技人才中心地图丨职业经历丨教育背景丨斯坦福丨普林斯顿丨多伦多大学 |
AI 公司地理和行业分布 | 以色列 | 德国 | 旧金山湾区 | 欧洲丨法国 |
福布斯AI 50 | 斯坦福AI指数 | 企业科技AI 30 | 高增长AI 50 | C端AI 50 | 工具AI 50 | SVTR AI 100 | 自力更生AI 25丨2024年全球最具价值独角兽丨Gen AI专利公司 Top20丨开源 AI 初创公司 Top 75丨开源 AI 开发者工具 Top 20丨全球数据中心按功耗排名 Top 50丨PH 2023年度最佳应用丨2023年北美新增独角兽 |
AI代理:创始人该如何站上3000亿美元的风口? |
AI+国防安防:如何重新定义现代战场的核心竞争力 |
AI+人力资源:用科技重塑就业与招聘的未来 |
AI+搜索:全球新锐公司谁能杀出重围? |
AI+社交:该怎么玩? |
AI+编程:公司排行榜丨市场地图丨AI工程师丨SaaS的新曙光 |
AI+金融:如何缔造下一个金融科技传奇丨大模型在金融投资领域的应用丨AI将如何改变会计 |
AI+游戏:市场研究报告丨初创公司Top 10 |
AI+机器人 |
AI+医疗:市场地图丨心理/精神公司 |
AI+教育:市场地图 |
AI+客服:市场地图 |
AI+法律:市场地图 |
AI+视频:市场地图丨3D视频 |
AI+生产力工具市场地图 |
AI+科研 |
Review
+
001 | 002 | 003 | 004 | 005 | 006 | 007 | 008 | 009 | 010 |
011 | 012 | 013 | 014 | 015 | 016 | 017 | 018 | 019 | 020 |
021 | 022 | 023 | 024 | 025 | 026 | 027 | 028 | 029 | 030 |
031 | 032 | 033 | 034 | 035 | 036 | 037 | 038 | 039 | 040 |
041 | 042 | 043 | 044 | 045 | 046 | 047 | 048 |
049 |
050 |
051 | 052 |
053 |
054 |
055 |
056 |
057 |
058 |
059 |
060 |
061 |
062 |
063 |
064 |
065 | 066 |
067 |
068 | 069 | 070 |
071 | 072 | 073 | 074 | 075 | 076 | 077 | 078 | 079 | 080 |
081 | 082 | 083 | 084 |
(文:硅谷科技评论)