「史上最强、思考最长、功能最全」推理模型o3 Pro登场,旧版降价80%,奥特曼再发小作文

作者大模型机动组
邮箱damoxingjidongzu@pingwest.com

AI 从会“聊天”向能“深度思考”迈进的时代节点,OpenAI 正式发布了最新旗舰推理模型 o3‑Pro,它不是一轮性能小升级,而是一种推理范式的进化:从快速响应转向高可靠性和强逻辑性的深度输出。

发布会上,OpenAI 用一句话概括了它的定位:“当你愿意为更高可靠性等待时,选择 o3‑Pro。”

o3‑Pro 现已向 ChatGPT Pro 用户和 OpenAI 的 API 开放,用户订阅后,便能在 Pro 模式中一键切换至 o3‑Pro,适用于科研、专业内容创作或复杂任务。而对于非Pro用户来说,o3 的价格大幅降低,可以在 Cursor、Windsurf 里使用 o3 。

o3‑Pro:更慢,更稳,也更强

与以往主打快速响应的模型不同,o3-Pro 在复杂任务上的表现令人瞩目——哪怕响应时间更长,但逻辑链更清晰,答案更扎实。

  • 推理流程更严谨:高难度任务上,o3-Pro 具备更强的“逐步建构能力”,不再跳步或重复。
  • 代码生成高质量:对 Python 的生成代码具备更强可读性与可用性,bug 更少。
  • 学术/科研类任务表现稳健:在文献、定理、推导任务中更严谨,堪用可复核。
  • 应速度不是重点:处理复杂问题可能需要等待 1-2 分钟,甚至更久。

在多个高难度测试基准中,o3-Pro 展现出远超上一代模型(如 GPT 4 turbo)与主要竞品(Claude Opus、Gemini 1.5 Pro)的表现:

  • AIME 2024数学竞赛正确率高达 93%(领先全场)
  • GPQA Diamond:博士级科学问答中拿下 84% 的正确率
  • Codeforces Elo 得分:达到 2748,全面拉开与 Claude 和 Gemini 的差距

同时,o3‑Pro 还在多模态理解、自然语言处理、逻辑一致性方面表现稳定。其劣势则是目前尚不支持图像生成、Canvas功能以及“临时对话”(temporary chats)。

OpenAI 还对 o3-pro 进行了严格的可靠性测试,并对其进行了压力测试和对抗性挑战,以确保其在严苛条件下保持稳定和安全。

与 Claude Opus 和 Gemini Pro 那种“迅速反应型”不同,o3-Pro 的推理风格更偏向“深度构建”,它可能需要更长的思考时间,但换来的是更扎实、更符合人类逻辑的答复,若你追求“打磨级别”“公正生成”“复杂问题稳定响应”,o3‑Pro 无疑是目前最佳选择。

Altman:我们正在缓慢步入奇点

在 o3-Pro 发布后的同一天晚上,OpenAI CEO Sam Altman 也发布了一篇长文博客,讲述他对AI未来的判断。通篇并未渲染危机,而是以一种极富节制与理性的语调,强调了AI对生产力、科研、生活方式的深刻改变。

他写道:“我们已经越过了事件视界。最困难的部分已经过去。” 这篇名为《The Gentle Singularity》(温柔的奇点)的博客中,Altman 重申了AI时代的核心逻辑:

  • 202年,AI 已能完成实际认知工作;
  • 2026 年,或将出现能提出新见解的系统;
  • 2027 年,或将问世能在物理世界中执行任务的机器人;
  •  2030 年,大部分人类的工作效率将成倍提升;
  • 2035 年之后,人类将进入“以创意为限制条件”的阶段。

他还提到,AI 所释放出的智能和能源,或将成为人类社会进步的新底层驱动力;而如何治理它、普惠它、对齐它,将是未来数年最重要的社会议题。

o3-Pro 的发布,不只是一款模型的迭代,更像是 OpenAI 对“高级认知系统”交出的一份新阶段答卷。

在这个模型愈发“像人”、也可能超越人的节点,我们或许正处在 Altman 所说的那种“惊奇已变成日常”的时刻。而真正的超级智能时代,或许比我们以为的更近。

* 图中数据及图片出自 OpenAI 官方发布

参考资料:https://apidog.com/blog/openai-o3-pro-pricing-api/?utm_source=chatgpt.com

https://blog.samaltman.com/the-gentle-singularity

(文:硅星GenAI)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往