
第一次体验 OpenAI Deep Research 那天,瞠目结舌,在朋友圈发了一个感慨:
人类专家级分析员水准,质量极高,无论从任何角度看——信息广度、分析深度、技术专业度、数据详实度、来源权威性&多样性等等,都几乎无懈可击。
当时很多人觉得我自嗨、言过其实,即使看了我非常详尽真实的 Case 分析后,很多人依然无法感同身受。
但因为 ODR 隐藏了真实思考过程,只是放出来一个不知所云的整理版 cot,也就没办法进一步说明了——直到最近,唯一真正接近 OpenAI Deep Research 效果(虽然还有明显差距)的 Grok Deep Search 带着完整思考过程上线。(btw:其他竞品,包括接入 R1 的各类 Deep Research,效果还完全无法相提并论)
——阅读 Grok 冗长、有趣又让人震惊的思考过程,已经让我身边的每个人都心服口服。
我们知道,OpenAI 官方明确说明了 Deep Research 是基于 o3 模型做了 RFT 强化微调,Grok 虽然没有说明 Deep Search 的实现方式,但明确了其底座 Grok 3 大量采用强化学习 RL 的方法,所以我们可以合理推断,Grok Deep Search 也是采用了类似的强化学习微调的方法端到端训练出来的。
说明什么?这背后,是推理模型经过强化学习端到端训练后,处理复杂任务的能力有了质的飞跃。这里有几个关键词:推理模型、强化学习RL/强化微调 RFT、端到端、远距离多跳复杂任务。这些是构建 Agent 的关键。
换个角度说:模型比人类聪明——我们总认为自己写的代码比模型更聪明,结果是,模型往往能找到比人类更好的解决方案。还是不明就里?
那就看看 OpenAI Deep Research 的负责人怎么说,内容不长,全是重点,先总结一下:
OpenAI Deep Research 负责人 Isa Fulford 和 Josh Tobin 在采访中讨论了 Deep Research 如何通过端到端而不是使用僵化的操作图来训练模型,从而在人工智能研究能力方面实现突破。他们解释了高质量的训练数据和 o3 模型的推理能力是如何实现适应性研究策略的,以及为什么 Sam Altman 认为深度研究将在所有知识任务中占据重要比例。建立透明度和信任度的关键产品决策包括引用和澄清流程。通过将几小时的工作压缩到几分钟,深度研究改变了许多企业和消费者使用案例的可能性。
采访视频:https://www.youtube.com/watch?v=bNEvJYzoa8A

-
高浓度的主流模型(如 DeepSeek 等)开发交流;
-
资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;
-
好用、有趣的产品/案例,Founder Park 会主动做宣传。
01
Deep Research 是一个 Agent
Lauren:能不能给我们讲讲 Deep Research 是什么?以及现在在做什么?
Josh Tobin:Deep Research 是一个能够搜索大量在线网站并创建非常全面的报告的 agent。它可以完成人类需要花费数小时才能完成的任务。它在 ChatGPT 中,只需 5 到 30 分钟即可回复你。因此,它能够进行更深入的研究,并以比常规 ChatGPT 回复更详细和具体的来源来回答你的问题。我们也发布了 Operator。Deep Research 是第二个 agent,我们将来会发布更多。
Sonya:Deep Research 的来龙去脉是什么?你们什么时候决定做这件事的?灵感是什么?有多少人参与其中?将它变为现实需要什么?
Josh Tobin:大概一年前,我们内部在这个新的推理范式上看到了很多成功,即训练模型在响应之前进行思考。当时主要关注数学和科学领域。新推理模型体系还解锁了执行长时间范围、涉及 Agent 能力任务的能力。我们发现,很多任务需要大量在线研究和外部背景知识,既要重要推理技能,也要辨别信息来源的能力。
为了在这些任务中表现出色,一个人必须非常有创造力。我们最终开发了模型,或者说开发了一种训练模型的方式,使我们能够处理其中一些更复杂的任务。因此,我们决定用训练推理模型的相同方法,开始训练模型执行首次浏览任务,侧重更实际的应用。
Sonya:这是你的主意吗?Josh,你是如何参与进来的?
Isa Fulford:起初,是我和 Yash Patil,他在 OpenAI 工作,他正在进行一个类似的项目,将在某个时候发布,我们很期待。我们构建了一个原始演示。还有 Thomas Dimpson,一位非常棒的工程师,会非常投入工作。整个过程很有趣。
Josh Tobin:我大约六个月前从创业公司重新加入 OpenAI,此前我就在这里工作。回来后我四处找项目,对包括这个项目在内的一些 Agent 工作很感兴趣,便参与其中。
02
Deep Research 的主要应用场景
Lauren:你们构建它的服务对象是什么?
Isa Fulford:这个产品为日常工作或生活涉及知识工作的人设计,很多人将它用于工作,比如工作中的研究、了解市场、公司和房地产等。
Josh Tobin:还有科学研究和医学研究,我们看到很多医学方面的应用例子。
Isa Fulford:令人兴奋的是,除了工作,在购物和旅行时,需要花大量时间进行网络搜索和整理信息的情况,它也很有用。
Josh Tobin:所以我们对 Plus 的发布很期待,这样更多人能试用 Deep Research,或许还会出现新的应用场景。
Lauren:这绝对是我过去几周使用最多的产品之一。太棒了。我会在工作中使用它,当然也为了好玩。
我一直在考虑买一辆新车,并且想弄清楚这款车的下一个型号何时发布。然后有很多推测型的博客文章,比如制造商的模式。所以我问 Deep Research,你能分解所有关于这辆车的传闻,以及他们以前所做的事情的所有事实吗?它整理了一份很棒的报告,告诉我可能要等几个月,但今年,在接下来的几个月里,它应该会发布。
Isa Fulford:是的,它真的很酷的一点是,它不仅仅是用于广泛地收集关于一个来源的所有信息,而且还擅长在互联网上找到非常晦涩难懂的奇怪事实。如果你有一些非常具体的事情想知道,而这些事情可能不会在搜索结果的第一页出现,那么它在这方面也很擅长。这很酷。
Lauren:你们见过哪些令人惊讶的用例?
Isa Fulford:我认为我最惊讶的是有多少人使用它进行编码。这实际上不是我考虑过的用例,但我看到很多人在 Twitter 和我们获得反馈的各种地方使用它进行编码和代码搜索,以及查找关于某个软件包的最新文档,并帮助他们编写脚本或其他东西。
Josh Tobin:是的,我有点尴尬,我们没有想到这会是一个用例,因为对于 ChatGPT 用户来说,这似乎是如此明显的事情。但我知道它运行得有多好,这令人印象深刻。
Sonya:您认为商业用途与个人用途之间的平衡会如何随着时间的推移而演变?比如您提到的 Plus 版本的发布,可能在一年或两年后。您认为这主要会是一个商业工具还是一个消费者工具?
Isa Fulford:我希望两者兼顾。我认为它是一种相当通用的能力,我们在工作和个人生活中都会用到它。
Josh Tobin:是的,我对两者都很期待。它的优势在于能节省人们大量时间,原本要花几小时甚至几天的事,现在输入需求,就能得到自己所能想到的 90% 内容。商业领域这类任务更多,但我相信它会成为人们生活不可或缺的部分。
Lauren:它已经成为我聊天的主要方式。我总是选择 Deep Research 而不是普通模式。那么,您在消费者用例方面看到了什么,您又对什么感到兴奋呢?
Isa Fulford:我认为很多都与购物、旅行推荐有关。几个月来,我个人也经常使用这个模型做这些。我们在日本发布 Deep Research 的时候,它在寻找符合特定要求的餐厅以及寻找我原本可能找不到的东西方面非常有用。
Josh Tobin:没错。当购买昂贵物品、规划特别旅行,或需长时间斟酌时,它很实用。拿我来说,此前为了解感兴趣的产品,我会花数小时甚至更久,在网上查阅各类信息,浏览评论、论坛等。而 Deep Research 能快速整合类似信息,在这类场景中非常好用。
Isa Fulford:这个模型很擅长遵循指令。如果查询包含多个部分或许多不同的问题。例如你既想了解产品信息,又想对比其他产品,还想查看 Reddit 等平台的评论,你可以提供大量的不同要求,它会为你完成所有。
Josh Tobin:是的。还有个小技巧,你可以要求它以表格形式呈现结果,它通常会满足,如果表格含引用且按不同研究类别组织,会很有帮助。
Isa Fulford:另外,我们希望未来给产品增添一些功能。底层模型能嵌入图像,可找到产品相关图片;还能创建图表并嵌入回复,尽管这不算消费级应用场景。期待这些功能能尽快加入 ChatGPT。
Josh Tobin:说到这个,个性化教育也是一个非常有趣的用例。比如你一直想学习某个主题,比如复习生物学知识、了解世界事件,输入不理解的信息和想研究的方面,它就能整理出优质报告。
Isa Fulford:我的朋友打算创办一家 CPG(消费品)公司,用它找类似产品、查询特定名称是否已注册、域名是否被占用以及估算市场规模等,还会跟我分享报告。很有趣。
Josh Tobin:另一个有趣的用例是,它还擅长挖掘互联网上冷僻的单个事实。比如找某部冷门电视剧的特定一集,它能深挖网络找到相关线索。
Isa Fulford:是的,我曾见到一个小众问题,关于某奥地利将军在某场战斗中某人死亡时掌权,ChatGPT 之前答错了,他去图书馆查证后确定答案有误,而 Deep Research 给出了正确答案,他收到答案后很兴奋。
Sonya:对于 Deep Research 目前最擅长的领域,大致的心智模型是什么?人们应该在哪里使用 O 系列的模型?又应该在哪里使用 Deep Research?
Josh Tobin:Deep Research 真正擅长处理对需求有详细描述、需要大量网络信息支撑的问题。面对模糊问题,它能帮你厘清需求,但特定信息查找才是它的最佳用武之地。
Isa Fulford:我认为它非常擅长整合信息、挖掘难找的特定信息。不过从既有信息中生成重要新见解的能力欠佳,目前还无法做出新的科学发现。
此外,当我使用 O 系列模型时,如果涉及编码相关的任务,而且不需要模型预训练之外的知识,我一般会选 O1 Pro、O1,有时也会用 O3 Mini。
03
成功的关键:
端到端训练的优势
Lauren:Deep Research 是OpenAI一些新产品方向的一个很好的例子。我很想知道,它是如何运作的?
Isa Fulford:驱动 Deep Research 的模型是 O3 的微调版本,O3 是我们最先进的推理模型。我们专门针对我们收集的困难的浏览任务以及其他的推理任务对它进行了训练,赋予它访问浏览和 Python 工具的权限。通过端到端训练,模型掌握了解决这些任务的策略,擅长在线搜索分析。
Josh Tobin:没错,直观上你可以这样理解:你提出详细请求,模型会思考问题,搜索、提取信息,理解信息与请求的关联,再决定下一步搜索方向,以趋近最终答案。它经训练能把信息整合为条理清晰、带原始信息引用的报告。
Isa Fulford:是的,我认为 Deep Research 的新颖之处在于端到端训练带来的自主能力。研究过程中有很多不可预测的情况,无法编写语言模型程序或脚本达到模型训练后的灵活程度。模型实时对网络信息做出反应,根据所见调整策略,进行创造性搜索,思维链总结显示出它在构思下一步搜索内容时非常聪明。
Sonya:John Carlson 发的一条推特在网上疯传,他问道,Deep Research 的魔力有多少源于实时访问网络内容,又有多少源于思维链?你们能解释一下吗?
Isa Fulford:我认为这是多种因素的组合。其他搜索产品不一定经过端到端训练,在响应信息和解决问题时,可能不会有好好的灵活性与创造力。而 Deep Research 基于微调的 O3 版本,O3 模型强大且智能,其底层训练赋予了 Deep Research 很多分析能力。所以,这绝对是多种因素共同作用的结果。
Josh Tobin:加入 OpenAI 前,我在初创公司参与构建 Agent,当时多数人采用的方式是构建操作图,图中的部分节点是语言模型,由它的决定下一步行动,但总体逻辑还是由人定义。
这种方法是一种快速构建事物并实现原型的方法,但在现实世界中很快就会失败。原因在于难以预测模型会面临的所有场景,也无法考虑所有可能路径分支。而且,模型通常并非图中节点的最佳决策者,因为它们没有针对做这些决定而训练,而是执行相似但不同的任务。
相比之下,现在这个模型强大之处在于,经过直接端到端训练,能解决用户实际用它处理的各类任务。
Sonya:你能详细讲讲吗?毕竟这似乎是你们做出的一个明确决策,显然已见成效。如今不少公司基于你们的API开发应用,通过提示来为特定用户解决特定任务。你觉得这些应用若针对自身特定工作流程进行端到端的模型训练,是否会有更好的效果呢?
Isa Fulford:我认为,如果你有一个非常具体且可预测的工作流程,那么 Josh 描述的做法可行;但是,如果你需要处理一些极端情况或需高度灵活性,类似 Deep Research 的方法可能更好。
Josh Tobin:我给大家的建议是,别对模型做硬性规定。比如不想让模型接触某个数据库,最好将其编入人工编写的逻辑。
在这个领域,人们常认为自己编码能比模型更聪明,但实际上,随着领域发展,模型往往能给出更好方案。机器学习中重要的一点教训就是,优化什么就得到什么。如果你能设置系统直接优化目标结果,会比拼凑未端到端优化的模型好得多。
所以长期来看,在模型之上进行强化学习调整,可能是构建强大 agent 的关键。
Sonya:在实现这一目标的过程中,最大的技术挑战是什么?
Isa Fulford:作为观察者而非项目初始参与者,我觉得 ESA 和团队成员工作极为努力,制作高质量数据集似乎是成功秘诀之一。在机器学习领域,人们不断认识到,输入模型的数据质量,很大程度上决定了所得模型的质量。
Josh Tobin:然后找一个像 Edward Sun 这样的人——项目的另一位成员,他对任何数据集都会进行优化。这就是成功的秘诀。找到你的「爱德华们」。
Lauren:机器学习模型训练。你如何确保它是正确的?
Isa Fulford:是的,这显然是模型和产品的核心,我们期望用户信任输出结果。一部分是我们提供引用,让用户能看到信息来源。
训练时,我们努力确保信息准确,但模型仍可能出错、产生幻觉,或采用不可靠信息源。所以这是我们会持续改进的重点领域。
Sonya:有没有你做的其他的设计决策,乍一看可能不太明显?
Isa Fulford:其中一个不太明显的设计决策是澄清流程。使用 Deep Research 时,模型会在研究前向用户提问,而 ChatGPT 一般在回复末尾提问。这是有意为之,因为明确、详细的提示能让 Deep Research 给出最佳回应。
我认为在第一个提示中给出所有信息不是用户的自然行为。而我们希望用户等待的 5 分钟或 30 分钟能换来尽可能详尽、满意的回复,所以增设这一额外的步骤,希望确保用户提供我们需要的全部细节。
实际上,我在 Twitter 上看到很多人说,他们会先和 O1 或 O1 Pro 交流,完善提示内容,满意后再发给 Deep Research,这很有意思,说明用户正摸索出自己的使用流程。
Sonya:我们该如何结合它与 O3、Operator 和其他不同的 Agent 来考虑?它是否会用到 Operator?它们是相互依存构建的,还是都是 O3 的不同应用?
Josh Tobin:今天,这些事物看似相互独立,但可以预想我们未来的目标:人们日后能够使用的终极 agent,不应仅局限于网页搜索、操作电脑或执行人类助手的常规任务,而应能以更自然的方式融合所有这些功能。
04
未来希望能帮用户
节省 25% 的时间
Lauren:在过去的几个月里,不同公司已经发布了三个不同的 Deep Research 产品。请告诉我们一些关于你们的独特之处,以及我们应该如何看待它?
Josh Tobin:它们都叫 Deep Research,在命名上确实没太多创意。我觉得大家应亲自试用这些产品,感受一下。虽说各有优缺点,但质量差异还是很明显的。说到底,这取决于模型构建方式、构建数据集所付出的努力,以及我们的 O 系列模型引擎,它让我们能优化模型,打造出真正智能且高质量的产品。
Sonya:去年我们在播客中采访了 O1 团队,我们开玩笑说 OpenAI 不太擅长命名。我想说这是你们命名最好的产品。
Josh Tobin:Deep Research 至少描述了它所做的事情(笑),我想是吧。
Lauren:你们今天有了 Deep Research。你认为一年后它会是什么样子?以及你可能想要构建的哪些互补的东西?
Isa Fulford:我们很高兴能够扩展模型可以访问的数据源。我们已经训练了一个擅长浏览公共信息的模型,还将使其能搜索私人数据,进一步提升其浏览和分析能力。
Josh Tobin:同时,考虑这如何更广泛地融入我们的智能 agent 路线图,这一方法将会适用于广泛的用例,一些效果或许会令人惊喜。
这个理念是利用先进的推理模型,赋予它人类工作生活中使用的工具,直接针对期望 agent 达成的结果进行优化。这个方法能不断拓展以处理更复杂任务。所以我认为实现 AGI 如今是运营层面的问题,而且这个通用公式有很多值得期待的地方。
Lauren:Sam Altman有一个非常引人注目的引言,说 Deep Research 将接手全球一定比例经济上可行的任务。我们应该如何理解这句话?
Josh Tobin:我认为它是这样的,Deep Research 虽然不能包办一切,但能节省你几个小时甚至几天时间。我们期望,Deep Research、后续构建的 agent 以及以此为基础构建的 agent,能依据你工作类型,给你节省 1%、5%、10% 甚至 25% 的时间。
Sonya:我以为已经自动化了我所做工作的 80%。
Josh Tobin:这绝对是偏高的估计,对我来说也是偏高的。看来我们只需开始行动了。
Sonya:你觉得是否有某些职业类别是 Deep Research 特别擅长的领域?「风险」这个词可能不太准确。我想到咨询行业,不过你认为有没有更契合的特定职业类别呢?
Josh Tobin:是的,我曾经是一名顾问。我不认为任何工作都面临风险。也不觉得 Deep Research 是用于替代劳动力的。但对于需大量时间找信息并得出结论的知识类工作,它能赋予人们超能力。
Isa Fulford:我对很多医疗应用案例很期待,像查找特定疾病文献或最新病例。不少医生分享过使用情况,或联系我们说用它帮患者找临床试验等,能为忙碌的人节省时间,让他们获取以前没时间获取的信息。
Josh Tobin:是的。而且我认为,这种影响可能比想象中更深刻,不只是节省 5% 的时间,而是原本要花四到八小时的事,现在通过 ChatGPT 订阅五分钟就能完成。这使得原本因为时间限制只能做一次的事,现在能做很多次,比如能研究更多创业公司,而非仅研究有时间会面的那些。
Sonya:从消费者角度看,比如忙碌的职业妈妈为幼儿筹备生日派对,现在这件事可行。所以我认同,这远比节省 5% 的时间意义重大。
Lauren:这都是以前无法做到的事情。没错。
05
2025 年将是真正的 Agent 之年
Sonya:好的,我们去年看到了一些应用类别脱颖而出。比如,编程就是一个很明显的例子。你认为今年哪些应用类别会脱颖而出?
Josh Tobin:我指的是 Agent,很明显。2025 年是 Agent 之年。
Lauren:你认为应该推荐人们阅读哪些书目或者了解作者,以更多地了解 Agent 或AI的未来发展方向?
Josh Tobin:我认为,跟上 AI 领域最新进展很难。我给大家的建议是,选一两个感兴趣的子主题,列出对这些主题有独到见解的人,学会锁定感兴趣的内容。这或许是 Deep Research 的一个不错应用场景,即深入研究你想进一步了解的东西。
Isa Fulford:现在可能有点旧了,但我觉得几年前我看过 Peter Abiel 的《强化学习基础》之类的。我觉得这是对强化学习的一个很好的介绍。
Josh Tobin:是的,我肯定会支持 Peter Abiel 的任何内容,他是我的研究生导师。
Sonya:好的。强化学习。它经历了一个高峰期,然后感觉又有点沉寂,现在又开始复苏了。你认为这是对RL现状的正确解读吗?它回来了吗?为什么?为什么是现在?
Josh Tobin:它回来了。因为其他方面都已取得进展。关注这个领域的人或许记得 Yann LeCun 的蛋糕比喻:做蛋糕时,蛋糕主体占大部分,还有一点糖霜,上面点缀些樱桃。其中,无监督学习是蛋糕主体,监督学习是糖霜,强化学习是樱桃。
2015 – 2016 年研究强化学习时,就如 Yann LeCun 的比喻,当时我们试图在没有蛋糕主体的情况下添加樱桃。如今,我们有了在海量数据上预训练的强大语言模型,也知道如何对其进行监督微调,使它们擅长遵循指令、满足人们需求。既然这些成效显著,那么针对能定义奖励函数的应用场景对模型进行微调,时机已然成熟。
(文:Founder Park)