硬刚DeepSeek!OpenAI发布「o3-mini」,速度翻倍能联网,白嫖版来了!

⚡一分钟速读

OpenAI重磅发布新一代推理模型o3-mini

🔥 重要更新

  • 首次向免费用户开放新模型(破天荒第一次!)
  • 付费用户额度提升至每天150条
  • 支持联网搜索功能,可实现”深度搜索”
  • o1更强的性能表现

💪 模型性能

  • o3-mini-high版本全面超越o1
  • 博士级GPQA测试:79.7% > 78%
  • 编程能力Codeforces:2130分 > 1891分
  • 软件工程SWE-bench:49.3% > 48.9%

🌟 三种版本可选

  • o3-mini:基础版,适合日常对话
  • o3-mini-medium:中等算力,性能均衡
  • o3-mini-high:高算力版,更强但更慢

👉 立即体验

  • 免费用户:直接使用基础版
  • Plus/Team用户:可用全部三个版本
  • Pro用户:无限制使用

🔄 对标竞品:o3-mini-high整体性能超越DeepSeek-R1


继续阅读,了解详细内容→

如果说昨天的文章《为了迎战DeepSeek,ChatGPT新增这些功能!》中介绍的都是OpenAI一些可有可无,无关痛痒,“挤牙膏”式的更新,那么今天,OpenAI终于放大招了!

全新的推理模型,专攻STEM(科学Science、技术Tech、工程Engineering、数学Math)领域,主打速度、“智商”和物美价廉

一个月前OpenAI就开始大力宣传的新一代推理模型o3,今天它正式发布了。

不出意外,不是满血版o3,而是小参数版本的o3-mini



o3-mini并不是灰度发布,目前已全面推出,包括ChatGPTAPI。当你登录ChatGPT网页版,大概率会收到下面这个弹窗提醒,那么意味着你的账号已经可以使用o3-mini了!

免费用户也能白嫖o3-mini的一大特色。要知道,这可是OpenAI破天荒第一次对免费用户开放一个新模型。同时,这也意味着AI平民化时代正在加速到来。

免费用户在这里使用。

此处,我们应该感谢那个国产之光——DeepSeek

付费用户则拥有更高的o3-mini使用额度:ChatGPT Pro用户无限制使用;PlusTeam用户的使用额度是o1-mini的三倍,也即每天150条。这个量,不干什么大事的话,应该是够了。

同时,付费用户还可以使用一个名为o3-mini-high的模型。严格意义来说,它并不是一个新模型,和之前的o1 pro一样,o3-mini-higho3-mini高算力版本“智商”更高,回答更慢



更更重要的,o1都不支持的联网搜索功能,o3-mini支持了!也就是,你可以同时使用o3-mini模型 + 联网搜索功能,以达到“深度搜索”的效果。这一点,恐怕也要感谢DeepSeek。因为DeepSeek自从发布推理模型R1起,就开始支持深度思考 + 联网搜索,详情看这里:DeepSeek-R1隐藏玩法:比Kimi更强的“深度搜索”模式!

这样的好处是显而易见的。联网搜索功能一开,相当于给AI的大脑接上全球知识库,岂不是直接开挂。更丰富的上下文信息,更高质量的结果。

比如我问o3-mini,“DeepSeek为什么这么火”。



如果单从基准测试结果来看,o3-mini的高算力版本o3-mini-high,是要比满血版o1还要强那么一丢丢的。其中,灰色阴影区域代表的是多数投票(majority vote, consensus)方法在64个样本上的表现。说人话,回答64次,模型的最高可能准确率。

GPQA Diamond是博士级别极具挑战的测试。o3-mini-high正确率79.7%,高于o178%。

编程测试Codeforces,o3-mini-high直接飙到了2130分,远超过o11891分。

SWE-bench Verified,评估AI模型解决实际软件工程问题的能力,o3-mini-high正确率49.3%,也是高于满血版o1

再来看一个小伙伴们都比较关心的问题,o3-mini-highDeepSeek-R1谁更猛

这里也放上DeepSeek-R1的基准测试结果。

o3-mini3个版本的基准测试结果和DeepSeek-R1的整合起来。

Benchmark 📌 o3-mini (Low) 🟡 o3-mini (Medium) 🟠 o3-mini (High) 🔥 DeepSeek-R1 🚀
AIME 2024 (Math) 🧮 60.0 79.6 87.3 79.8
GPQA Diamond (Science) 🔬 70.6 76.8 79.7 71.5
Codeforces (Coding) 💻 1831 (ELO) 2036 (ELO) 2130 (ELO) 96.3 (Percentile)
SWE-bench Verified (Software Eng.) 🏗️ 40.8 42.9 49.3 49.2

可以看到,和o1对标的DeepSeek-R1整体性能肯定是不如o3-mini-high的,大约是介于Medium和High之间的水平。

但说实话,DeepSeek-R1都开源且免费了,还要什么自行车!


结语

o3-mini一发布,o1-mini可以彻底淘汰了!



我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。


(文:AI信息Gap)

欢迎分享

发表评论