提前退休!我用联网版Grok3对狙DeepSeek,OpenAI的Deep Research要凉了

本来以为马斯克抄奥特曼已经够狠了,

没想到直接来一手超级免费,先是把订阅价提升了45%,然后第二天把Grok3免费了。这操作 OpenAI 估计学半年都学不会。

而且因为Grok3 Deep Search(深度搜索)跟 OpenAI 的Deep Research(深度研究搜搜)名字太像,再加上之前还有Jina AI、Perplexity、Gemini、Huggingface、Genspark、Ollama都出了类Deep Research的能力。

AI搜索、深度搜索、深度研究搜索的关系是什么?它们之间性能差距有多少呢?

这是我今天想知道的答案。

OpenAI的深度研究搜索之前已经详细测过一轮了,感兴趣的可以去看看效果:

用DeepSeek单挑完o3研究版和o3-mini后,我觉得OpenAI这些更新都没打到点上

这次直接上AI黄金守门员联网版DeepSeek R1和当红炸子鸡Grok3 Deep Search来一个硬碰硬。

就是 DeepSeek 用多了就会有一个苦恼,

模型够用了,反而是问题不够用了。深度搜索因为大都已经有推理模型的加持。一般的问题已经拉不开距离。

所以我将搜索测试分成了三类难题:

  • 热点事件追踪与总结
  • 特定主题的深度信息挖掘
  • 对比分析与观点提炼

 百宝箱R1 

我是万万没想到Zfb也上线R1了,

这下子不需要考虑登陆账号的问题了,直接在Zfb里搜索百宝箱,点击DS联网搜就直接能用了,连下载都省了。

还有思维导图版的R1,挺好玩的。

这次总不需要担心被冲卡了吧。而且网页版tbox.alipay.com里还能构建工作流和智能体,进一步定制化联网搜索的体验。

先玩起来,说不定后续阿里的推理模型出了,在这个平台上也会快速支持。

对了实测之前,还有几条 Grok3 Deep Search 的使用小技巧:

  1. Deep Search 用英文关键字检索,用中文查询效果反而会差
  2. @宝玉 老师使用了 Dev Tool,看网络请求提前破解出了 Grok3 的使用限制,每两小时刷新一次:

 一、热点事件追踪与总结 

这一part最重要的就是时间,可以是一周、一个月、24小时。要求模型能够准确识别时间范围、识别信息源里的文章是否过时、保证时效性的同时能否完成全面总结。

先来个问题热热身

过去一周,马斯克做了什么?有发布什么新品吗?

  • R1回复

  • Grok3回复

点评一下,

先从体验上说起,百宝箱版R1的信息源应该都是中文类,优点是在提供答案的时候会用括号的方式标出。思考过程中能准确划分一周的范围,得到了马斯克这一周发布了Grok3、Optimus人形机器人以及Grok3的数据问题。

Grok3 的 UI 很好看,将搜索过程折叠起来的后进度感体验明显,同样是准确划分出了时间范围,有意思的是它还会“作弊”,当时间维度上找不到很多的项目时,还会根据与马斯克相关的项目一个个排查,最终得到是Grok3和Starlink,这局算是打平了。

再来一道:

最近24小时内,科技行业有哪些公司发布了重要的财报或业绩预测

  • R1回复

  • Grok3回复

PS:因为深度搜索的回复都很长,我做成了可滑动长图的形式。

这个问题就是来为难模型的,因为主体不明确,只知道是科技行业,公司太多了,很容易会让模型陷入搜索怪圈。

从支付宝版R1的回复上看,并没有找到对应的财报,所以用了最近几天的科技财报作为回复。而 Grok3 又开了,演都不演了,直接按照市值一个个找公司,尝试了三次之后可算找到阿里昨天发财报了。这一局Grok3小胜。


 二、特定主题的深度信息挖掘 

这一part的话,就是集中考察深度搜索的信息整合能力了。不只是罗列信息,还要进行一定的分析和解读,形成结构化的、连贯的答案。

如果可以在质量上接近 OpenAI 的深度研究搜索的话,深度搜索的使用额度和推理成本基本是碾压性优势。可惜很多时候限制了输出的长度,或者是模型没调好,出来就是就是几段排版了的文本,东一块西一块,但是每一块都没说全。

第三题就是:

全面介绍一下Grok3,包括模型、原理等相关信息

  • R1回复

  • Grok3回复

这次R1通过发布背景、技术原理、核心功能、性能表现以及争议来整合Grok3的信息,因为我前天才人工选了几十条信息,盘点了Grok3的14点内幕,所以结合来对比的话,R1得出的信息很准确,也得到了Grok3的DeepSearch、Think和BigBrain,还给出了应用场景。

Grok3输出的结构基本一致,但是在分析模型方法的时候有幻觉,使用了Grok1的结构来表达Grok3,但按照目前XAI发布的技术报告来看,Grok3的技术细节更多是用RL来完善思维链的过程。这一局R1赢了。

第四题的话,我想问问看DeepSeek刚发的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,前天刚发的,专门为了解决长文本。梁文峰还亲自上场了。

  • R1回复

  • Grok3回复

R1和Grok3都找到了正确的论文地址。不同在于R1集中在技术原理,提到了NSA的结构、模式和训练细节,不够全面。而Grok3有点过于全面了,基本上跟看一篇论文差不多,有意思的是它对于NSA方法的讲解特别细节,翻译过来后很容易就知道DeepSeek做了什么来理解长文本:

  • 大图焦点:NSA 将文本分组成块并压缩它们以保持整体含义,就像总结一章一样。
  • 细节重点:NSA 挑选出这些块中的关键细节,以确保没有遗漏任何重要的东西,比如突出显示关键句子。
  • 本地焦点:NSA 查看附近的文本以了解上下文,类似于围绕一个单词阅读几句话以更好地理解它。

对了,这里提前预告一下下周DeepSeek要陆续五天开源新项目!!

这不比OpenAI十二天发布会实在多了!估计官网又要卡爆了,多囤点像百宝箱R1这样的到时候说不定能第一时间体验上。


 三、对比分析与观点提炼 

最后一part是考察模型在对比分析不同实体、事件或观点的时候,能不能准确找出关键的、多维度的差异。

第五个问题,还跟上一个问题联动了,

因为前天,Kimi的新论文又又又跟DeepSeek撞车了,

同样是解决长文本,杨植麟也亲自上场,只比DeepSeek晚了5个小时,也集中在了注意力。

对比分析一下 ‘Kimi新提出的MoBA注意力机制 ’ 和 ‘DeepSeek新提出的NSA注意力机制’ 这两种方法在长文本处理任务中的优缺点,并说明它们的实现原理。

  • R1回复

  • Grok3回复

根据R1和Grok3的回复来看,Kimi和DeepSeek这版注意力机制还是有挺大差异的。简单来说,

  • MoBA将文本分为块,并选择最相关的块,而NSA使用分层方法专注于关键部分,针对计算机硬件进行了优化。

  • MoBA很灵活,在全注意力和稀疏注意力之间切换,而NSA速度更快,特别是对于非常长的文本。

这一局的话,个人认为R1会小胜,因为Grok3的token就跟不要钱似的,给出了很多相同的信息,如果是第一次阅读想要了解全面信息的会比较喜欢,但是要快速了解论文方法之间的差异性的话,R1做的更好。

最后我们来超前预告一下,看看R1和Grok3怎么看快要包裹在GTP5里发布的o3模型:

请对比分析一下 Grok3 和 OpenAI o3 这两款模型的特点和优势,并总结它们各自的应用场景。

  • R1回复

  • Grok3回复

R1和Grok3基本都得到了Grok3和o3的性能指标、算力支持、成本和数据优势。不同的是R1在信息处理里,将o3当作已经在十二月发布的模型。

Grok3更搞笑,不知道是不是系统限制了,我跟他第一轮对话英文只完成了搜索没有输出结果,第二轮就开始说中文了。不过在后续的回复里面还是认可了o3的性能表现,没有给自己洗白。

三轮对决下来,R1和Grok3的深度搜索从信息源来说基本是两极,使用Grok3的时候记得用英文才能发挥性能。而针对深度搜索来说,最影响效果的反而是提问时候要注意主体清晰,Grok3、o3、NSA、甚至丢一个论文名字进去都会给你一个很不错的答案,但是科技公司这类模糊的指定就很容易负优化。

最让我感到惊喜的还是在效果上,个人体验已经能达到 OpenAI Deep Research的80%了。期待后续能有数据集能反馈更真实的性能表现。


 写在最后 

我没想到,zfb会以这么快的速度加入,

从传统搜索引擎的”大海捞针”,到DeepSeek-R1这类深度思考搜索的”按需造针”,我们见证着信息搜索的进化

而当越来越多的大众应用陆续接入DeepSeek时,带来了更进一步的改变,

我们将抛弃过去的搜索方式,而变成无时无刻的提问与思考。

这正是颠覆传统的第一步:

让追问不止于答案,让思考永不停歇。


@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro


(文:卡尔的AI沃茨)

欢迎分享

发表评论