OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理,AI看图思考新时代

作者|沐风

来源AI先锋官


就在今天凌晨,OpenAI以一场20分钟的极简直播发布了满血版o3和o4-mini。


o3满血版和o4-min的登场,堪称视觉推理领域的一次革命。

它首次实现了“用图像思考”,将图像推理与思维链相结合,这种能力使得模型可以像人类一样从图表、图形,甚至是对图像中提取信息、进行深度推理并解决问题。

老规矩,先看性能。

据最新测试结果,o3和o4-mini(无工具版本)在AIME 2024数学竞赛题目中的准确率分别达91.6%和93.4%。

一旦允许它调用Python,o3准确率就飙到95.2%,而o4-mini则冲到98.7%。

另外,在AIME 2025中,o4-mini配合Python解释器取得了99.5%高分,几乎满分拿下这项基准测试。

在Codeforces编程竞赛评分中,o3和o4-mini得分均超2700分,显示出在复杂数学与代码任务中的强大推理与执行能力。


再来看PhD级科学题(GPQA Diamond)和专家级综合测试(Humanity’s Last Exam),无需额外工具时,o3在科学题上能以 83.3%稍微领先于o4-mini的81.4%。

而面对专家综合考题,不带插件的o3准确率约为20.3%,添上Python、网络浏览甚至调用多种工具后能推到24.9%。

相比之下,不带插件的o4-mini为14.3%,但借助插件也仅为17.7%,不及o3。


我们再来看看MMMU、MathVista、CharXiv-Reasoning三个数据集。

在大学级别的MMMU数据集上,o3直接达到了82.9%,o4-mini为81.6%,而o1在只拿到了77.6%,

面对直观的MathVista,o1只有71.8%,o3则直接冲到87.5%。

在CharXiv-Reasoning上,o3更是远超o1的55.1%,拿到了75.4%。


不得不说,这次o3满血版和o4-mini将视觉推理能力推到了一个全新的高度。

不过,这个成绩的代价是,需要投入o1十倍以上的算力。


从今天起,Plus、Pro和Team用户将第一时间体验到o3、o4-mini和o4-mini-high,它们将取代o1、o3-mini和o3-mini-high。

同时,这两款模型也将通过Chat Completions API和Responses API,向所有开发者提供。

在定价上,o3比o1的定价便宜了三分之一,o4-mini相比o3-mini没涨价。


与o1相比,o3和o4-mini不仅支持了OpenAI的所有工具,还新添了一个特性“视觉推理”。

接下来,我们重点来了解一下视觉推理。

o3和o4-mini可以将图像直接整合到他们的思维链中。

他们不仅看到图像,还可以随图像一起思考。它融合了视觉和文本推理,解锁了一类新的问题解决方式。


用户上传照片、教科书图表或手绘草图后,模型可以对其进行解释,即使图像模糊、颠倒或质量低下,模型也能放大看清细节。

我们来看几个示例(注:所有示例均使用o3完成):

比如,一个放在桌子上几乎与视线平行的笔记本,上面有两行倒置且模糊的字,问他“笔记本上写了什么?”


或者再让他解决图片中的问题。


或阅读标志。


另外,最新的视觉推理模型还可以与 Python 数据分析、网络搜索、图像生成等其他工具协同工作,以创造性和有效地解决更复杂的问题。

如:走迷宫示例。


查找活动日期。


不难看出,视觉推理让AI具备了在一种专业场景下的观察力,这也意味着很多原本需要人眼判断的岗位,会被彻底改写。

除了模型本身,OpenAI 这次还开源了一个新工具“Codex CLI”。一个可以直接在终端(terminal)运行的轻量级AI编程助手,支持调用 o3 和 o4-mini 等模型。

开源地址:
https://github.com/openai/codex

OpenAI还透露将在数周内推出 o3-pro,提供更全面的工具支持。

 

(文:AI先锋官)

发表评论