⚡一分钟速读
OpenAI重磅发布新一代推理模型o3-mini
。
🔥 重要更新
-
首次向免费用户开放新模型(破天荒第一次!) -
付费用户额度提升至每天150条 -
支持联网搜索功能,可实现”深度搜索” -
比 o1
更强的性能表现
💪 模型性能
-
o3-mini-high
版本全面超越o1
-
博士级GPQA测试:79.7% > 78% -
编程能力Codeforces:2130分 > 1891分 -
软件工程SWE-bench:49.3% > 48.9%
🌟 三种版本可选
-
o3-mini
:基础版,适合日常对话 -
o3-mini-medium
:中等算力,性能均衡 -
o3-mini-high
:高算力版,更强但更慢
👉 立即体验
-
免费用户:直接使用基础版 -
Plus/Team用户:可用全部三个版本 -
Pro用户:无限制使用
🔄 对标竞品:o3-mini-high
整体性能超越DeepSeek-R1
继续阅读,了解详细内容→
如果说昨天的文章《为了迎战DeepSeek,ChatGPT新增这些功能!》中介绍的都是OpenAI一些可有可无,无关痛痒,“挤牙膏”式的更新,那么今天,OpenAI终于放大招了!
全新的推理模型,专攻STEM(科学Science、技术Tech、工程Engineering、数学Math)领域,主打速度、“智商”和物美价廉。
一个月前OpenAI就开始大力宣传的新一代推理模型o3
,今天它正式发布了。
不出意外,不是满血版o3
,而是小参数版本的o3-mini
。
o3-mini
并不是灰度发布,目前已全面推出,包括ChatGPT和API。当你登录ChatGPT网页版,大概率会收到下面这个弹窗提醒,那么意味着你的账号已经可以使用o3-mini
了!
免费用户也能白嫖是o3-mini
的一大特色。要知道,这可是OpenAI破天荒第一次对免费用户开放一个新模型。同时,这也意味着AI平民化时代正在加速到来。
免费用户在这里使用。
此处,我们应该感谢那个国产之光——DeepSeek!
付费用户则拥有更高的o3-mini
使用额度:ChatGPT Pro用户无限制使用;Plus和Team用户的使用额度是o1-mini
的三倍,也即每天150条。这个量,不干什么大事的话,应该是够了。
同时,付费用户还可以使用一个名为o3-mini-high
的模型。严格意义来说,它并不是一个新模型,和之前的o1 pro
一样,o3-mini-high
是o3-mini
的高算力版本,“智商”更高,回答更慢。
更更重要的,o1
都不支持的联网搜索功能,o3-mini
支持了!也就是,你可以同时使用o3-mini
模型 + 联网搜索功能,以达到“深度搜索”的效果。这一点,恐怕也要感谢DeepSeek。因为DeepSeek自从发布推理模型R1起,就开始支持深度思考
+ 联网搜索
,详情看这里:DeepSeek-R1隐藏玩法:比Kimi更强的“深度搜索”模式!
这样的好处是显而易见的。联网搜索功能一开,相当于给AI的大脑接上全球知识库,岂不是直接开挂。更丰富的上下文信息,更高质量的结果。
比如我问o3-mini
,“DeepSeek为什么这么火”。
如果单从基准测试结果来看,o3-mini
的高算力版本o3-mini-high
,是要比满血版o1
还要强那么一丢丢的。其中,灰色阴影区域代表的是多数投票(majority vote, consensus)方法在64个样本上的表现。说人话,回答64次,模型的最高可能准确率。
GPQA Diamond是博士级别极具挑战的测试。o3-mini-high
正确率79.7%,高于o1
的78%。
编程测试Codeforces,o3-mini-high
直接飙到了2130分,远超过o1
的1891分。
SWE-bench Verified,评估AI模型解决实际软件工程问题的能力,o3-mini-high
正确率49.3%,也是高于满血版o1
。
再来看一个小伙伴们都比较关心的问题,o3-mini-high
和DeepSeek-R1
谁更猛?
这里也放上DeepSeek-R1
的基准测试结果。
把o3-mini
3个版本的基准测试结果和DeepSeek-R1
的整合起来。
Benchmark 📌 | o3-mini (Low) 🟡 | o3-mini (Medium) 🟠 | o3-mini (High) 🔥 | DeepSeek-R1 🚀 |
---|---|---|---|---|
AIME 2024 (Math) 🧮 | 60.0 | 79.6 | 87.3 | 79.8 |
GPQA Diamond (Science) 🔬 | 70.6 | 76.8 | 79.7 | 71.5 |
Codeforces (Coding) 💻 | 1831 (ELO) | 2036 (ELO) | 2130 (ELO) | 96.3 (Percentile) |
SWE-bench Verified (Software Eng.) 🏗️ | 40.8 | 42.9 | 49.3 | 49.2 |
可以看到,和o1
对标的DeepSeek-R1
整体性能肯定是不如o3-mini-high
的,大约是介于Medium和High之间的水平。
但说实话,DeepSeek-R1
都开源且免费了,还要什么自行车!
结语
o3-mini
一发布,o1-mini
可以彻底淘汰了!
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)