

推理+搜索=?
昨天,我在沃垠AI用户群提了一个观点:

DeepResearch,可能会是继对话模型、推理模型后的新范式。
DeepResearch,翻译过来就是“深度研究”的意思。顾名思义,可以深度研究你的问题,然后搜索全文数据,合成一篇详细且有深度的研究报告。
国外做得最好的,自然是ChatGPT的DeepResearch,因为它的基座模型是o3。Grok的DeeperSearch也不错,因为它有X上丰富的优质资源。国内,智谱这周刚刚发布了「AutoGLM沉思」。
最近,我在体验AI产品过程中,发现了另一款国产AI也上线了DeepResearch功能,而且一点不弱。
它便是来自元石科技的「问小白」。
其基座模型由元石大模型+DeepSeek双模驱动;搜索能力来自自研的RAG技术,在Chinese SimpleQA评测中拿下91.6分,远超同行(这张图应该不难看出同行是谁吧)。

关于其RAG技术,欢迎大家查看他们的官方介绍:91.6!再夺第一!
体验地址:www.wenxiaobai.com
简单来说就是,问小白=最一流的大模型+最一流的搜索能力。

上手实测
1 )「AI搜索」体验
最新版的DeepSeek V3-0324和R1模型,已经部署在问小白上,但这不是我今天要讲的重点。
今天,重点跟大家聊聊问小白的搜索能力。
问小白,提供了日常搜索(即时获取最新信息)和专业搜索(深度检索更多资料)。

日常搜索,只要不犯基础错误就行。

什么?你说有网友吐槽我“技术术语堆砌”?那这明显是被我用AI生成的内容给毒害了……
当然,也有不准的,比如这个。

可能是太偏了吧,问小白正确,秘塔错误。
日常搜索,主要考验的是搜索广度和深度。而专业搜索,不仅考验搜索广度、深度,还考验回答质量。
先来一个我们在其他文章里测过的case,同时勾选DeepSeek R1+专业搜索,开启问小白的最强模式。

Prompt:我是一名自媒体博主,想买一台笔记本电脑,预算8000-12000元,主要用于工作(写作、设计、视频编辑以及AI推理),Windows或苹果系统都可以。请从国内外评测网站搜索该价位的笔记本电脑,然后比较他们的核心配置、续航、轻薄程度等方面的优劣,并根据不同价位给出清晰的购买建议。
可以看到,问小白一下子就搜出了138个网页。

同样的Pompt发给DeepSeek官网,它只找到了48个网页。

也不是说,谁多就一定好。我们来对比一下问小白和DeepSeek的信源。

可以看到,问小白的搜索结果基本都是最新的内容,引用自知乎、淘宝、网易等内容源。
DeepSeek虽然也引用了这些内容源,但是……大哥,你是认真的吗?怎么20年前互联网洪荒时代的内容都出来了。
这也跟大家对DeepSeek的印象一致——DeepSeek本身的搜索能力是比较弱的,经常有幻觉产生。
然后,我们来看下问小白的答案。

还不错,推荐的几乎都是市场上比较认可的机型。
更有意思的是,问小白还在答案下方放了个“将答案转成精致网页”的提示。

点一下,一键生成可视化网页,可在线预览,也可将页面分享。

再来看一个case,这会我们找来了秘塔(右)跟问小白(左)做对比。

Prompt:研究有关MCP(Model Context Protocol,模型上下文协议) 的科学文献和资料,撰写一篇关于MCP的科普文章,输出尽量通俗易懂。
先看结果。


是不是其实2家差不多。
那我们再看下生成过程?
很明显,问小白比秘塔快多了。左边问小白都快答完了,右边秘塔才开始写答案。
这也是问小白的另一大特点,阅读网页快(平均每秒能处理25-30个网页),生成速度快。
2)「小白研报」体验
在会话框处,我还注意到他们正在内测一个叫「小白研报」的功能。

我申请了下,第二天就通过了。
这里给大家展示几个我的Case。
Prompt:设计今年五一四川自驾游攻略,目标川西,时间3天,高性价比,规避拥堵,景点冷门但却别具一格。
它一上来,先进行了任务规划。

然后,根据规划搜索全文信息。

信息搜集完毕后,开始合成内容。

内容写完后,自己又开始写网页代码(这部分时间稍微长一点)。

全过程大概15分钟左右,一个精美的旅游攻略贴就出来了。

卧槽,太NB了。这是我体验过完全不输ChatGPT、Grok,比Perplexity、Gemini还要好的DeepResearch产品。
全过程我也录了一个视频,一帧未剪。
体验过程中,我还测了一个Case。我认为其完成度完全不输上面这个。
Prompt:请挖掘A股市场中与Agent有关的上市公司。搜集最近三个月内的实时行业新闻、公开数据、权威报道和专家评论,结合关键财务和经营指标对相关上市公司进行量化分析,形成一份Agent投资深度报告,包括趋势预测、竞争格局、投资策略和风险分析。
完整视频在此。
这是它生成的研报网页,这交互、这效果、这内容质量,让我这个既干过产品经理又干过内容运营的老IT人不禁陷入深深的怀疑:这TM怎么能是10分钟就干出来的?怎么能?


大家可以复制这个网址,查看case效果。
https://www.wenxiaobai.com/share/deep-research?url=https://wy-static.wenxiaobai.com/deep-research/e9d96f1b-d591-4844-b263-18b3de10a63b.html
可测试过程明明就刚刚发生在我面前啊。那我只能说,问小白真的太NB了。
不仅擅搜、会答,还能提供富媒体网页。而且注意,它的页面不是套模板,而是完全根据内容的属性来定制化开发。
在我个人心目中,问小白的「小白研报」绝对算得上全球DeepReseach的第一梯队水平。
3)其他功能体验
不仅如此,问小白还能用DeepSeek做PPT。

比如我们输入一个主题:哪吒2对中国电影的影响。
很快,它就整理出了大纲。

然后,一键生成PPT。

这完美补齐了DeepSeek缺失的文生PPT能力。
另外,问小白还能画图、写作、答题,未来还将上线智能设计、视频生成……这背后都是基于DeepSeek模型。

他们,真的是把DeepSeek用到极致了。

写在最后
自DeepSeek成为现象级模型以来,除了少数坚持的几家大模型厂商以外,很多AI公司和应用都接入了DeepSeek。
但说实话,很多AI我用过后发现,它其实还不如DeepSeek官方的。
至少DeepSeek官网够开放,不会去压缩思维链和tokens,也不会去乱改系统提示词。而问小白是我用过的少有比DeepSeek官方还强的DS应用。
比如,搜索能力比DS强,吐字比DS和很多AI都快,也补齐了多模态短板(画图、拍题),还增加了生产力场景(PPT生成、研报生成)。
而且,问小白也有自己的元石大模型,一点都不弱。
比如其开源的MetaStone-L1-7B模型,比Claude-3.5-Sonnet-1022、GPT-4o-0513和DeepSeek-R1同尺寸模型的表现都要好。

当然,更重要的是它——完全免费。以上我体验到的所有功能,全部免费,不限次数。
所以,用就完事了。
体验链接:
https://www.wenxiaobai.com
(文:沃垠AI)