
OpenAI 于4月16日,宣布推出 o3 和 o4-mini 两款新型 AI 推理模型,该公司称 o3 是其迄今为止最先进的推理模型,在数学、编程、推理、科学及视觉理解能力的测试中超越了此前所有模型。
而 o4-mini 则提供了 OpenAI 所称的在价格、速度与性能之间的理想平衡——这三个因素常是开发者选择 AI 模型驱动应用时的考量重点。
不同于以往的推理模型,o3 和 o4-mini 能利用 ChatGPT 中的工具生成回答,如网页浏览、Python 代码执行、图像处理及生成。
从今日起,这些模型及名为“o4-mini-high”的变体(该版本花费更多时间打磨答案以提高可靠性)已面向 OpenAI 的 Pro、Plus 和 Team 订阅计划用户开放。
新模型的推出是 OpenAI 在全球激烈 AI 竞赛中超越谷歌、Meta、xAI、Anthropic 和 deepseek 的努力之一。
尽管 OpenAI 率先发布了 AI 推理模型 o1,但竞争对手迅速跟进,推出了性能相当或超越 OpenAI 产品线的自有版本。事实上,随着 AI 实验室寻求从系统中榨取更多性能,推理模型已开始主导这一领域。
O3 几乎未能登陆 ChatGPT。OpenAI 的CEO Sam Altman 在二月份曾表示,公司计划将更多资源投入整合 o3 技术的复杂替代方案。但竞争压力最终似乎促使 OpenAI 改变了路线。
OpenAI 表示,o3 在衡量编码能力的 SWE-bench 验证测试(无自定义脚手架)中达到了最先进的性能水平,得分为 69.1%。o4-mini 模型表现相近,得分为 68.1%。OpenAI 次优模型 o3-mini 在该测试中得分为 49.3%,而 Claude 3.7 Sonnet 得分为 62.3%。
OpenAI 宣称 o3 和 o4-mini 是其首批能够“用图像思考”的模型。实际应用中,用户可向 ChatGPT 上传图片,如白板草图或 PDF 中的图表,模型会在“思维链”阶段分析图像后再作答。得益于这一新能力,o3 和 o4-mini 能理解模糊和低质量图像,并能在推理过程中执行放大或旋转图像等操作。
除图像处理能力外,o3 和 o4-mini 还能通过 ChatGPT 的 Canvas 功能直接在浏览器中运行并执行 Python 代码,并在查询时事时进行网络搜索。
除 ChatGPT 外,o3、o4-mini 及 o4-mini-high 三款模型都将通过 OpenAI 面向开发者的终端——Chat Completions API 和 Responses API 提供,工程师可按使用量付费,基于这些模型构建应用程序。
OpenAI 对开发者收取的 o3 价格相对较低,考虑到其性能提升,每百万输入 token(约 75 万字,比《指环王》系列还长)收费 10 美元,每百万输出 token 收费 40 美元。对于 o4-mini,OpenAI 的定价与 o3-mini 相同,每百万输入 token 收费 1.10 美元,每百万输出 token 收费 4.40 美元。
OpenAI 表示,未来几周内计划发布 o3-pro 版本,这是 o3 的一个变体,会消耗更多计算资源来生成答案,专供 ChatGPT Pro 订阅用户使用。
OpenAI 首席执行官 Sam Altman 指出,o3 和 o4-mini 可能是 ChatGPT 中在 GPT-5 之前的最后独立 AI 推理模型。
公司曾表示,GPT-5 将统一如 GPT-4.1 等传统模型与推理模型。
参考资料
https://techcrunch.com/2025/04/16/openai-launches-a-pair-of-ai-reasoning-models-o3-and-o4-mini/
编译:ChatGPT
(文:Z Potentials)