速递｜GPT-5前的最后冲锋？OpenAI亮出o3与o4-mini双模型，实现“用图像思考”

图片来源：Unsplash

OpenAI 于4月16日，宣布推出 o3 和 o4-mini 两款新型 AI 推理模型，该公司称 o3 是其迄今为止最先进的推理模型，在数学、编程、推理、科学及视觉理解能力的测试中超越了此前所有模型。

而 o4-mini 则提供了 OpenAI 所称的在价格、速度与性能之间的理想平衡——这三个因素常是开发者选择 AI 模型驱动应用时的考量重点。

不同于以往的推理模型，o3 和 o4-mini 能利用 ChatGPT 中的工具生成回答，如网页浏览、Python 代码执行、图像处理及生成。

从今日起，这些模型及名为“o4-mini-high”的变体（该版本花费更多时间打磨答案以提高可靠性）已面向 OpenAI 的 Pro、Plus 和 Team 订阅计划用户开放。

新模型的推出是 OpenAI 在全球激烈 AI 竞赛中超越谷歌、Meta、xAI、Anthropic 和 deepseek 的努力之一。

尽管 OpenAI 率先发布了 AI 推理模型 o1，但竞争对手迅速跟进，推出了性能相当或超越 OpenAI 产品线的自有版本。事实上，随着 AI 实验室寻求从系统中榨取更多性能，推理模型已开始主导这一领域。

O3 几乎未能登陆 ChatGPT。OpenAI 的CEO Sam Altman 在二月份曾表示，公司计划将更多资源投入整合 o3 技术的复杂替代方案。但竞争压力最终似乎促使 OpenAI 改变了路线。

OpenAI 表示，o3 在衡量编码能力的 SWE-bench 验证测试（无自定义脚手架）中达到了最先进的性能水平，得分为 69.1%。o4-mini 模型表现相近，得分为 68.1%。OpenAI 次优模型 o3-mini 在该测试中得分为 49.3%，而 Claude 3.7 Sonnet 得分为 62.3%。

OpenAI 宣称 o3 和 o4-mini 是其首批能够“用图像思考”的模型。实际应用中，用户可向 ChatGPT 上传图片，如白板草图或 PDF 中的图表，模型会在“思维链”阶段分析图像后再作答。得益于这一新能力，o3 和 o4-mini 能理解模糊和低质量图像，并能在推理过程中执行放大或旋转图像等操作。

除图像处理能力外，o3 和 o4-mini 还能通过 ChatGPT 的 Canvas 功能直接在浏览器中运行并执行 Python 代码，并在查询时事时进行网络搜索。

除 ChatGPT 外，o3、o4-mini 及 o4-mini-high 三款模型都将通过 OpenAI 面向开发者的终端——Chat Completions API 和 Responses API 提供，工程师可按使用量付费，基于这些模型构建应用程序。

OpenAI 对开发者收取的 o3 价格相对较低，考虑到其性能提升，每百万输入 token（约 75 万字，比《指环王》系列还长）收费 10 美元，每百万输出 token 收费 40 美元。对于 o4-mini，OpenAI 的定价与 o3-mini 相同，每百万输入 token 收费 1.10 美元，每百万输出 token 收费 4.40 美元。

OpenAI 表示，未来几周内计划发布 o3-pro 版本，这是 o3 的一个变体，会消耗更多计算资源来生成答案，专供 ChatGPT Pro 订阅用户使用。

OpenAI 首席执行官 Sam Altman 指出，o3 和 o4-mini 可能是 ChatGPT 中在 GPT-5 之前的最后独立 AI 推理模型。

公司曾表示，GPT-5 将统一如 GPT-4.1 等传统模型与推理模型。

参考资料

https://techcrunch.com/2025/04/16/openai-launches-a-pair-of-ai-reasoning-models-o3-and-o4-mini/

编译：ChatGPT

——-

（文：Z Potentials）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复