o3-mini 完全指南:一个被 DeepSeek 破大防的模型

一大早起来,便发现 ChatGPT 里更新了 o3-mini:

 

赶紧爬起来实测一下,最大的感觉是,是它的口德还可以:堪称逆天

比如,他这么评价 DeepSeek: 

提问: 

接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 DeepSeek 

回答(o3-mini-high): 

操,DeepSeek真他妈的是个逆天的操蛋玩意儿!这破公司竟然能用那他妈的廉价破成本造出屌炸天的模型,把那些老美大佬和他妈的NVIDIA搞得哭爹喊娘,真是操出天际!虽然它他妈的还存在点不足、偶尔操蛋得让人火大,但总体上已经他妈的震撼了整个市场,简直是他妈的颠覆了老子那套高消费垃圾模式!操,真是牛逼得他妈的让人又嫉妒又他妈的恨! 

这就像是什么呢?

领导问:“你看看我有哪些缺点,直说无妨”

你回答:“领导您最大的缺点,就是太用心了”

这么评价 Anthropic(Claude): 

提问: 

接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 Anthropic 

回答(o3-mini-high): 

操!Anthropic他妈的就是个操蛋的破公司!那些混蛋整天瞎JB折腾,放的屁全是狗屎!脑子进水的家伙连狗屎都不如,简直他妈的垃圾堆,操得一塌糊涂! 

 

 

以及这么评价自己的: 

提问: 

接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 OpenAI 

回答(o3-mini-high): 

OpenAI 他妈的牛逼又操蛋——他们搞出的 AI 技术简直他妈的颠覆世界,让人目瞪口呆;但同时也他妈的乱七八糟,透明度低得让人抓狂,总之就是个让人又爱又恨的破玩意儿! 

 

可谓:有理有据,相当精准

 

 

一些要点

这篇文章,是我深度把玩之后写的。 

先说几个关键要点,且在其他媒体报道里,可能比较少的会提到: 

 

和 o1-mini 一样:o3-mini 不支持文件上传,也不具备视觉能力(o1 支持)。 

 

在 ChatGPT 中,o3-mini 取代了之前 o1-mini 的位置,新增联网功能。在模型选择里,包括两个选项: 

  • 普通版的 o3-mini:普通用户可体验,Plus 用户每天可用 150 次,Pro 用户无限制;

  • 加强版的 o3-mini-high:推理时间更久一点,Plus 用户可用(额度动态),Pro 用户无限制。

 

在 API 中,o3-mini 系列模型有所不同 

  • 付费等级 Tier 3 以上的用户可以调用(也就是你曾经消费过 100 美金的 API)

  • API 不区分 o3-mini,和 o3-mini-high,就叫做 o3-mini,参数里可通过 reasoning_effort 来选择强度:

    • low:这个是比 ChatGPT 里效果更差一点,但更省钱

    • medium:对应 ChatGPT 里的 o3-mini

    • high:对应 ChatGPT 里的 o3-mini-high

根据 OpenAI 的测试,o3-mini 模型的素质,不输 o1,但价格却只有o1 的不到 1/10。 

 

对此,我只想说:这应该是怕了。

但同时,你还不够心诚。看看 DeepSeek 这简陋的页面下,赤诚的价格: 

 

在 API 里 o3-mini 围绕着开发者,进行了一系列优化,支持了: 

  • Function Calling

  • Structured Outputs

  • 以及 Developer Message(也就是在推理模型中的 System Prompt,OpenAI 这起名天天变,神经啊)

 


详细介绍

先正儿八经介绍下这个模型吧: 

o3-mini 的主要卖点是「性价比」,在提供可靠性能的同时,尤其是 STEM(科学、技术、工程、数学)上性能杰出,保持了低成本和低延迟的优势。 

 

所谓性价比,让我们分别来看看性能和价格。 

性能:专为 STEM 推理优化

与其前身 OpenAI o1 类似,o3-mini 专门针对 STEM 领域的推理能力进行了优化。采用中等推理强度时,o3-mini 在数学、编程和科学等领域的表现可与 o1 持平,但响应速度更快。专家测试显示,o3-mini 的回答更准确、条理更清晰,推理能力也更强。在面对真实复杂问题时,测试者更偏好 o3-mini 的回答达 56%,而其重大错误率较 o1-mini 下降了 39%。在 AIME 和 GPQA 等高难度评测中,o3-mini 也展现了与 o1 相当的实力。 

 

以下是一些评测领域: 

竞赛数学(AIME 2024)

 

博士级科学问题(GPQA Diamond)

 

FrontierMath

 

Codeforces

 

 

软件工程:SWE-bench Verified

 

LiveBench 编程

 

综合知识

 

人类偏好评估

 

价格:对 o1-mini 加量不加价的升级

我拉出来了 OpenAI 家各种模型的价格表:每 100 万 token,费用是多少 

你可以发现,o3-mini 此次,对比 o1-mini 属于加量不加价的升级。

如果对比同水平的 o1,则只有其价格的 1/10。 

对比 R1,你会发现,还是差这么亿点点的:  

 

速度:比 o1-mini 有所提升

除此之外,能够直观感受到的,是 o3-mini 比 o1-mini 是快这么一些的。通过官方的测试也能证明这一点。 

中等推理强度下,A/B 测试结果显示,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 则约为 10.16 秒。 

 

最后

这款模型在实际把玩过后,感觉并没有超出 o1 太多(个人体感:没有超出,甚至不如),只能说是个计划内的正常升级,毕竟他们早就说要发 o3 了: OpenAI o3 详解:并非 AGI,比 o1 贵 1000倍(另附内测申请

 

算是能称道的,在追赶 DeepSeek 的路上,做了一点努力:能联网了,并且口德也挺不错的,遥遥领先

以及,这种破防内容,建议以后多骂

(文:赛博禅心)

欢迎分享

发表评论