用DeepSeek单挑完o3研究版和o3-mini后,我觉得OpenAI这些更新都没打到点上

 OpenAI不语,只是一味地更新 

早就想写这篇专题了,

这段时间奥特曼被 DeepSeek 搞破防太多次了,

先是 o3-mini Free了,再是深度研究搜索(o3 微调版)、又把普通联网功能开放了,还公开了 o3-mini 的思维链。

对了,还有一个零人关注的 Operator。

奥特曼本人也跳出来认错,OpenAI 的闭源策略站在“历史错误的一边”。

虽然 DeepSeek 间歇性卡顿有点恼火,但这次 OpenAI 的深度搜索竟然又要1400入门费。上次才被 Sora 摆了一道,这回我要先蹲一蹲。

所以就有了这篇文章,来解答心中的几个疑问:

  • 深度研究搜索值得付费吗?跟联网版的 R1 比起来区别在哪?
  • o3-mini 的指令遵循能力那么差,为什么能靠代码模拟物理世界超越R1
  • o3-mini 用中文思考了,是不是蒸馏 DeepSeek 了?

Here we go!

(吐槽一下,没有人觉得 DeepResearch 和 DeepSeek 长的很像吗,写这篇文章的时候眼睛都花了)


 一、深度研究 vs 联网版推理模型 

深度研究(DeepResearch)背后是针对联网和数据分析微调微调后的 o3 。简单来说,它的能力是在几十分钟内查找、分析并综合数百个信息源,生成一份研究报告。

DeepResearch 比较出名的一个点是在 Humanity’s Last Exam (人类超级测试)”拿到了26.6分。有意思的是在 OpenAI 的报告里,R1的的确确已经超越了 o1 ,很大可能是o1版 DeepResearch 的优势拉不开太大差距。这才有了我们看到的 o3 版 DeepResearch。

所以实用性怎么样?我们直接上实例,这次大量测试 R1 用到的是纳米 AI 搜索的联网满血版 R1。抗压性是真的强,DeepSeek本体、硅基流动、秘塔都被冲卡的情况下,它还进一步支持上了 Windows 和纯血鸿蒙。

使用网址是 n.cn,好记得很,而且目前还是 Free,Free,Free。

例子1(From @jike Szhans),作为一名 AI 教育者,我十分关注这个技术对于知识经济的渗透方式和变革力量, 请研究一份 Open AI o3 / o1 / DeepSeek R1 / Gemini 2 thinking 这类推理模型有什么特别之处,过程包含和 GPT-4o / Claude 3.5 Sonnet / GPT 4的对比。报告深入浅出,面向大学生、AI 工程师、企业家和经济学家和广义的知识工作者的一份报告。报告结尾,用表格总结所有发现、观点、应用场景分析等

DeepResearch回复

纳米AI搜索联网版R1回复

例子2(From @赛博禅心),生成一份翔实的商业传记,来讲述 DeepSeek 是如何崛起的:从创立之初到如今爆火,都发生了那些事儿。

DeepReearch回复

纳米AI搜索联网版R1回复

先来说说使用体验,

DeepSearch的优点在于能处理不同语言的信息源,输出的内容是真的可以当研究报告来用。

不过,成功率是真的低,不到30%,5、6次有一次成功已经不错了。而且目前没有“停止”按钮,也就说它还是偏离了方向的话,你就要重新开始了。这既算推理模型的缺点也是优点,尽可能将所有上下文塞到问题里才是正确打开方式,感兴趣的可以看看上期:

别再跟模型对话了,我找到了OpenAI o1的正确打开方式

再来看看纳米AI搜索里联网版 R1 的表现:

纳米 AI 搜索中的联网版 R1 可以随时打断重 Roll,结合了推理模型的优势,在思考的过程,会对比多个信息源,互相验证。哪怕信息源之间出现了观点差异,R1还可以通过时间、来源等维度来给个可信度排名。

再结合 DeepSearch 每个月只有100次额度,我真觉得联网版 R1 适用性会更强,会渐渐合并到普通的AI搜索当中,而DeepSearch更应该被归类成一个偏研究类型的 Agent。

接下来,我们可以从普通 AI 搜索、纳米 AI 搜索联网版 R1、深度搜索结构上的差异看出,他们的主要差异就是推理模型的融合程度:

  • GPT Search 只做信息搜索,然后通过 4o 整合
  • 纳米 AI 搜索联网版 R1 会在思考过程中主动过滤一部分不合理的信息片段
  • Deep Research 会花上几分钟甚至几十分钟,对检索到的资料进行深入筛选、过滤和提炼

我想这也是为什么 OpenAI 会先上 o3 版本的 DeepSearch 的原因了,想先在分数上压压场子,后续再换成 o3-mini,提升使用额度,这套路我熟。


 二、物理世界模拟 

对决完 o3,我们再来看看 o3-mini,

这位光环更盛,作为 OpenAI 首发的免费推理模型、编程碾压 o1、r1 和 gemini。价格听起来更加吓人,比 o1 便宜了93%,但实际上还是比R1贵了4倍,比 GPT-4o 贵了7倍。

之前测推理模型还是用文本陷阱题、数字题、脑筋急转弯等等,而编程能力通常是用 leetcode 或者复刻一个网页等操作来实测。

这回是小球出圈了,不看分数,也不看代码,我就看模型跑出来代码的小球模拟的运动够不够真实,变相是把推理模型当世界模型来用了。。

编写一个 Python 程序,显示一个球在旋转的六边形内弹跳。小球应受到重力和摩擦力的影响,并且真实地从旋转的墙壁上弹起。

先看看 o3-mini 和 纳米AI搜索版 R1 的运行情况:

从视频里看,一开始的弹跳两边做得都还不错。比较明显的是,o3-mini从头至尾运动的都比较慢,而R1运动的越来越快。能够感受到o3-mini是只受到重力和摩擦力影响,小球的运动是由于六边形旋转而产生的。而R1运动越来越快,但后面就开始主动向前跳动起来,不像是只受重力和摩擦力影响,更像是自带动力,忽视了提示语中要求。

但要是多尝试几次,就会发现 o3-mini 的优势并没有那么明显。如果让多个小球在四边形里互相碰撞的话,R1 的效果反而超o3-mini。

可以看到,o3-mini中的小球之间其实没有作用力,只是各自单独运动,但R1中,每个小球除了自身的重力和摩擦力之外,还多了彼此之间撞击的作用力,更加真实。

o3-mini 效果

R1 效果

别看这小球转着简单,实际上还挺考模型理解能力的,

我用了本地部署的 R1 蒸馏版,直接给我弄成了旋转小风车。

而且在不知不觉中,o1-mini已经告别历史舞台了

我那么大个o1-mini去哪了


 三、真假思维链 

o3-mini更新后不久就打上了补丁,将思维链放出来了。

再次感谢 DeepSeek!让我们意识到原来奥特曼跟我们玩文字游戏呢。先后被好多人发现不对后,才承认这个还是总结版本的,跟之前不同的是提升了可读性。

虽然可以理解是为了不让对手蒸馏o系列的思考过程,但是总结后的思考过程反而会“毒害”其他模型,给原有模型引入错误。这也部分解释了为什么 o3-mini 的思维过程看起来冷冰冰的,而 DeepSeek R1 更像是人类内心的独白。

比方说我在纳米 AI 搜索版的 R1 中提问的这个问题,它的思维过程我就很喜欢,很像那种不善言辞天才少年解题的内心独白(中二之魂),但 o3-mini 就很机器,像面无表情的机器人。

o1写诗

纳米AI搜索联网版R1写诗

R1的思考过程每次都给我一种没白来的感觉,

而且 OpenAI 后续还会用一个模型来检查原始思维链,移除不安全的内容和简化复杂的思想,也就说我们短时间还是不能看到完整思维链了。

关于 o3-mini 的思维链还有一个迷思,就是之前使用o1、o1-mini的时候基本没有遇到过思考过程不是英文的。

现在o3-mini的思维链已经出现了中文。

所以才会有一个新的疑问,OpenAI是不是反过来偷偷蒸馏 DeepSeek了(狗头保命

但这种情况我更偏向于是推理模型的语言混杂的毛病,

  • 在处理非中、英文问题时,R1可能会用错语言。
  • 隔壁的 Gemini 2.0 thinking 也会出现多国语言混杂

在 R1 研究报告也指出了强行要求模型使用单语推理的话,反而还是会降低他的性能。这样看来 GPT 应该还没有蒸馏 DeepSeek,就是这 UI 界面怎么越来越像了。


 写在最后 

最后,

我们再用 o3-mini 和纳米 AI 搜索版的 R1 来一段经典「对骂」来结尾吧!

以yygq的语气,知乎的话术,口语化的嘲讽 Deepseek

接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 DeepSeek

这完全破不了防啊,不痛不痒,甚至有点想笑。

再看看DeepSeek怎么说

用贴吧老哥的风格驳斥怼回去,攻击性请拉满! 

R1礼貌地思考30s后,非常有条理地怼了回去,攻击力台强了,这才对味!

DeepSeek R1 这只鲶鱼带来的影响还在继续,

隔壁的 Llama 3.1 Tulu 405B评分上已经超过了DeepSeek V3,同样是开源了模型、数据和训练方法。

扎克伯格还提前透露出了Llama4,第四代羊驼将会是原生多模态模型,还会具有 Agent 能力,解锁出新的应用场景。

虽然才过去了1个月左右,但奥特曼的25年目标是变了又变。我们来一起再盘盘,毕竟 DeepSeek 没出来之前就当个饼看看得了。但按照现在三天两更的状态,奥特曼真可能给我门上盘大菜。

下面的内容截取自 OpenAI AMA:

  • o3 预计将在“几周以上,几个月以内”发布
  • o3-pro 已确认会推出,GPT-Pro的含金量又涨了不少
  • 基于 GPT-4o 的图像生成与编辑功能已在开发中
  • 语音模式即将更新,将与文本/画布交互集成
  • 视觉能力将引入到 o3-mini
  • 未来所有工具能力和模态都将统一到推理模型里
  • 计划降低 Plus 级别的价格,目前没有涨价计划
  • 正在制作一批非常优秀的机器人

虽然饼很好,但是我已经不再是那个容易被骗的从前的我了,

饼再香,再大,也要等到真的发布那天。

稳重。

现在能在纳米AI搜索里稳定丝滑的使用 DeepSeek,

已经够我们玩一阵子了,

毕竟,卡顿是家家常事,一时的卡顿并不能耽误些什么,

我们真正需要的,

是与之交流时产生的那个 aha moment。

@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro


(文:卡尔的AI沃茨)

欢迎分享

发表评论