一手实测：OpenAI Deep Research

今早八点，OpenAI 发布了他们的新产品 Deep Research

在第一时间用上后，做出了此篇评测，先说结论：极强，但非常不稳定

Deep Research 是一个比较高级的 Agent，在 ChatGPT 里的。

当你给到 Deep Research 一个任务后，比如「DeepSeek 是如何崛起的」，会自动检索&分析大量的网络信息，并给你带来一份相当不错的报告。

需要注意的是：完成任务可能会花费 10 分钟，甚至更久。

值得玩味的是，这个功能的背后是 o3 模型，不过这个模型不是原版，针对联网和数据分析相关的需求进行了微调，这使得它能更好的搜索、分析文本、图片和pdf，并能不断的反思和重试。

接下来我会展示一些我的测试案例。在那之前，让我们先看一下官方的演示视频：

我个人猜测，这个功能可能是升级于最开始的 WebGPT 那套。同时这次发布，的确很有价值：

o1 带来了深度思考
R1 则是先简单搜索，再在深度思考
Deep Research 可以配合 o3-mini 使用，让 AI 先深度搜索，再深度思考

如此深度，如此求索…

让我们把这个功能，叫做深度求索吧！英文就是 DeepSeek。

正如 OpenAI 一贯的「高级功能有限制」，DeepSeek DeepResearch 功能也是限量使用：

Pro 用户：今日可用，每个月限 100 次
Plus/ Team/Enterprise：即将可用，每个月限制 10 次
免费用户：再等等吧…

当然，这些限制或许以后都会改。

当然，这一功能也是分地区开放的，按官方说法，以下地区暂不可用：英国、瑞士和欧洲经济区（欧盟+冰岛、挪威和列支敦士登）

顺道着… 网上找了个分类图：EU 是欧盟，EEA 是欧洲经济区

回过头来，让我们看看 Deep Research 的实测，这应该是全网第一份的。

例子1，给出任务目标让他执行，典型的 Good Case：

生成一份翔实的商业传记，来讲述 DeepSeek 是如何崛起的：从创立之初到如今爆火，都发生了那些事儿。

这里我做了份录屏（10倍速）

然后得到了这么一份报告：

可上下滑动

仔细了看了这篇报告…质量堪称极高。

当然，里面也有一些小的错误，比如：他认为“幻方量化”是 2010 年成立的，而实际上是在 2015年。但总体瑕不掩瑜。

之前我自己也花两天时间，写了这个：《DeepSeek 成长史：追光者的技术远征 | 江湖录》，看官们也可以比较下，是哪个版本的更好。

例子2，给定目标并限定方法，这是一个典型的 Bad Case：

我告诉 Deep Research：「我是公众号「赛博禅心」的主理人，下方是1月份公众号「赛博禅心」的内容数据，请在逐篇阅读后，给我一些内容优化上的建议」

然后附带上了下面这个信息：

迎接我的，是一篇胡说八道：

我啥时候有百万阅读了…于是我回顾了一下他的流程，发现它并没有跟随我的指令去直接访问链接，而是去搜索。

之后我又反覆试了几次，即便要求「一定访问我的链接，一定不要搜索」，他也并不理会。这里并不清楚为什么他一定会去搜索，但从实际经验的角度，大概率是从安全角度出发，从系统层面禁止了「用户指定页面的行为」

例子3：…容我先卖个关子，这个很有趣，我放到了最后

官方对 Deep Research，也发布了相关的参数报告：
https://openai.com/index/introducing-deep-research/

在这个报告中，除了 OpenAI 自己的“遥遥领先”，我认为其中提到的两个测试，更为有趣：

Humanity’s Last Exam, HLE
General AI Assistants, GAIA

接下来，我会结合这两个测试，以及 OpenAI 的报告内容，整体的分析下 Deep Research 这个东西。

首先是 Humanity’s Last Exam：这个测试包含 3000 道问题，由全球各学科专家共同开发，包含适合自动评分的多项选择题和简答题。每个问题都有明确且容易验证的已知解，但无法通过互联网检索快速找到答案。

这里，我放两个测试的样题，看看你能不能回答出来（PS：我是废物，完全不行）：

而就在这个 HLE 测试中，Deep Research 取得了 26.6% 的准确率，一骑绝尘。

如果你对这个测试感兴趣，可以在这里查阅到更多信息：

https://lastexam.ai/

对应的 paper 在这里：

https://arxiv.org/abs/2501.14249

另一个基准测试是 GAIA，用来评估 Agent 的性能，由 450 个具有明确答案的题目组成。问题被分为 3 个等级，即 Level 1～3，其中 Level 1 是较为基础的问题，Level 3 则颇具挑战。

这是一个 Level 1 级别的问题，看看你搞定需要多久：

而这是 Level 3 级别的问题：

但无论如何，解开这些题目，都需要 AI 去使用多种工具，包括联网搜索来完成。如果你对这个测试感兴趣，可以在这里查看方法：

https://openreview.net/forum?id=fibxvahvs3

在这个测试中，会发现 Open Research 取得了较为不错的成绩，在 pass@1 和 cons@64 的标准下，均取得了比以往更好的成绩。这里做一个信息的补充，有关 pass@1 以及 cons@64：

pass@1：AI 在首次尝试时直接给出正确答案的概率，可以用来衡量一个 AI 是否直接可用
cons@64：这是 AI 在生成 64 个答案后，正确答案出现在这 64 个答案中的概率，可以用来评估 AI 的覆盖率和潜力

不过嘛…我还是发现了一个华点。这个 GAIA Leaderboard 访问地址在 Hugging Face 上。这里：

https://huggingface.co/spaces/gaia-benchmark/leaderboard

可以发现，OpenAI 发布的“以往最佳”的成绩，是 h2o 做到的，记录时间为 24年12月16日。而更新的记录则是由 Trase Systems 于 1月29日（大年初一）发布的。也就是说，OpenAI 应该在 1月29号之前就 Ready 了这个项目。哈哈～刚好和奥特曼的 Twitter 对应上了：

对于「例子3」，ahhhhhh，我希望 用 Deep Research 来「写一篇有关 OpenAI Deep Research 的报告，你的目标受众是 AI 从业者、投资人和相关研究人员」

5分钟后，获得了这么一份报告：

可上下滑动

大家可以来评一评这篇报告：

觉得写得好，请在评论区，夸我是个大聪明；
觉得写得烂，请在评论区，骂 OpenAI 是个大聪明

实际上，这是 Deep Research 的第 4 次输出：在前三次中，它的输出堪称「胡说八道，离题万里」：

而在第四次中，我重新修改了提示词，加上了一些背景介绍，并且重复测试了2次，才获得较为满意的结果。这是我在第四次中，用到的提示词：「就在刚刚，OpenAI 新出了一个功能，叫做「Deep Research」，那么请你就「OpenAI Deep Research」写一篇分析报告，你的目标受众是 AI 从业者、投资人和相关研究人员」

通过上面的几个例子，发现这次 OpenAI 的发布确实可圈可点，上限很高。但在实际的体验中，也蕴藏着一些问题，包括不仅限于：

非常不稳定
如果任务没有被描述的非常清楚，它的理解&执行可能会有比较大的偏差，就比如 OpenAI Deep Research 报告（你并无机会在中途修正）
任务一旦开始，就无法人工干预（包括提前结束）
无法读取用户提供的链接（至少不读取公众号链接）
限额过于低：即便是 Pro 用户，每个月也只有 100 次的额度
…

对于限额问题，官方也说到：“All paid users will soon get significantly higher rate limits when we release a faster, more cost-effective version of deep research powered by a smaller model that still provides high quality results.”

翻译成中文，便是：“很快，我们会推出一款更省算力的小模型，给 Deep Research 来用，那时，所有的付费用户都可以有更多的使用额度了。”

一时不知是喜是忧。

既然：

OpenAI 已经发布了 Deep Research

那么：

DeepSeek 何时发布 Open Research

如果您喜欢本内容，可点击下方推荐，让更多朋友看到

一键三连，这次一定！

（文：赛博禅心）

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复