跳至内容
「一切都由模型驱使」听上去像是遥远的 AGI 才会实现的事,但现在已经在 Deep Research 中可以见到。
现在,OpenAI 开放了 Deep Research 的使用,除了尊贵的 Pro 用户,其他付费用户也可以体验了。
这个开放时间称得上微妙:从 Gemini 到 Perplexity,以及刚推出不久的 Grok 3,都有自己的 Deep (Re)search 模式。别说产品功能了,连名字都撞得一模一样。
来自 Deep Research 研发团队的两位负责人,做客红杉投资的播客,分享了在他们的研发经历,产品背后的设计思考,如果面对业界挑战,以及更重要的 Deep Research 这个业务所描绘的蓝图:帮助每一个人探究自己的好奇心,完成自己的课题。
Lauren Reeder:那么我们先来了解一下什么是深度研究吧。请给我们讲讲它的起源故事以及这款产品的作用。
Isa Fulford:Deep Research 是一个能够搜索许多在线网站的 agent,它可以创建非常全面的报告。它可以完成人类需要花费数小时才能完成的任务。
它位于 ChatGPT 中,只需五到三十分钟即可回答您。因此,与常规 ChatGPT 响应相比,它能够进行更深入的研究,并以更详细和更具体的来源回答您的问题。
这是我们发布的第一批 agent 之一。我们最近也发布了 Operator。Deep Research 是第二个 agent,未来我们会发布更多 agent。
Sonya Huang:深度研究的起源故事是什么?您什么时候选择做这件事的?灵感是什么?有多少人参与其中?
Isa Fulford:啊对。我想大概是在一年前,我们在内部看到了一种新的推理范式和训练模型,在做出反应之前思考的诸多成功案例。
我们主要关注数学和科学领域,但我认为这种新的推理模型机制所释放的能量,是能够完成涉及 agent 能力的更长远的任务。
许多人所从事的任务,需要大量的在线研究或大量的外部调研,这涉及推理和对来源的区分。你必须非常有创造力才能做这些事情。
我们终于有了模型,或者说训练模型的方法,可以让我们能够解决其中一些任务。所以我们决定尝试开始训练模型来执行第一个浏览任务。
Sonya Huang:这是你的主意吗?Josh,你是怎么参与进来的?
Isa Fulford:是的,一开始是我和 Yash Patil,他是 OpenAI 的一名员工,正在开发一个类似的项目,将在某个时候发布,我们对此感到非常兴奋。
我们制作了一个原始演示。然后还有 Thomas Dimson,他是一位了不起的工程师,他会深入研究任何事情并完成大量工作。所以这很有趣。
Josh Tobin:是的。我最近才加入。大约六个月前,我从我的初创公司重新加入了 OpenAI。我早期在 OpenAI 工作,重新加入时正在四处寻找项目,并对一些 agent 工作非常感兴趣,包括这个项目,并参与其中。
Lauren Reeder:太棒了,跟我们讲讲你为谁建造的这个产品吧。
Josh Tobin:好,我觉得它真的适合所有从事知识工作的人,作为他们日常工作的一部分或他们生活的一部分。我们看到很多用户使用它来工作,做诸如研究之类的事情,作为他们工作的一部分,了解市场、公司、房地产……
Isa Fulford:很多科学研究,医学研究。我想我们也看到了很多医学案例。
Josh Tobin:是的。我们真正兴奋的事情之一就是这种协作方式,比如,我只需要出去花很少时间做一些事情。你知道,平时我必须做大量的网络搜索并整理大量信息,这不仅仅是工作,而且对购物和旅行也很有用。
Isa Fulford:所以我们对 Plus 的推出感到非常兴奋,这样更多的人将能够尝试深度研究,也许我们还会看到一些新的用例。
Lauren Reeder:很好。这绝对是过去几周我用得最多的产品之一。效果太棒了。
Lauren Reeder:当然是为了工作。也是为了好玩。
Lauren Reeder:对我来说?我当时想买一辆新车,想知道这款车的下一款车型什么时候发布。而且有很多推测性的博客文章。所以我问 Deep Research,你能否分析一下关于这款车的所有八卦,以及他们做过的所有事——这家汽车制造商以前做过什么。
它整理了一份很棒的报告,告诉我可能要等几个月,但今年,比如说,在接下来的几个月里,它应该会问世。
Josh Tobin:是的。它的一个很酷的功能是,它不仅可以广泛收集有关某个来源的所有信息,而且还擅长在互联网上查找非常晦涩难懂、奇怪的事实。
比如,如果你想知道某个非常具体的东西,而它可能不会出现在搜索结果的第一页,那么它在这方面也很擅长,很酷。
Lauren Reeder:您见过哪些令人惊讶的用例?
Isa Fulford:我想最让我惊讶的是有这么多人用它来编程。
Isa Fulford:这实际上不是我考虑过的用例,但我在 Twitter 上和各种地方看到很多人使用它进行编码和代码搜索,以及查找有关某个库或其他东西的最新文档并帮助他们编写脚本等。
Josh Tobin:是的,我有点尴尬,我们没有想到这是一个用例。
Josh Tobin:对于 ChatGPT 用户来说,这似乎很明显,但我知道,它的效果令人印象深刻。
Sonya Huang:您认为商业用例与个人用例之间的平衡,将如何随着时间的推移而变化?例如,您提到了即将推出的 Plus。一年或两年后,您认为这将主要是商业工具还是消费者工具?
Isa Fulford:我希望两者兼而有之。我认为这是一种相当普遍的能力,而且我认为这是我们在工作和个人生活中都会做的事情。所以希望两者兼而有之。
Josh Tobin:是的,我对两者都很感兴趣。我认为它的神奇之处在于,它能为人们节省大量时间。如果有些事情可能需要几个小时——甚至在某些情况下,我们听说,几天——人们只需把它放在这里自行工作,就能得到他们自己能想到的 90% 的结果。
我倾向于认为,在商业领域,这样的任务比在个人生活中要多。但我的意思是,它肯定会成为人们生活的一部分。
Lauren Reeder:它确实成为了我使用 ChatGPT 的主要方式。我总是选择深度研究,而不是常规研究。
Lauren Reeder:那么从消费者使用案例来看,您看到了什么?您对什么感到兴奋?
Isa Fulford:我认为有很多购物和旅行建议是很有意思的。我个人经常使用这个模型。几个月来我一直在用它做这类事情。我们在日本推出了 Deep Research,所以它对寻找有非常具体要求的餐厅,以及发现我不一定能找到的东西非常有帮助。
Josh Tobin:是的。我发现,当你想购买一件昂贵的东西,或者你在计划一次特别的旅行,或者你想花很多时间考虑什么,对我来说,我可能会花上几个小时,试图在网上阅读关于我有兴趣购买的这款产品的所有信息,浏览所有的评论和论坛等。
深度研究可以非常快速地汇总类似的东西。所以它对这类事务非常有用。
Isa Fulford:这次的模型在遵循指令方面也非常出色。因此,如果您的查询包含许多不同部分或许多不同问题,例如,如果您想要有关产品的信息,但还想和所有其他不同的产品进行比较,或者还想要在 Reddit 上的评论或类似的东西,都可以提出大量不同的要求,它会为你完成所有这些要求。
Josh Tobin:没错。另一个技巧是格式化为表格。它通常会有回答,但有一个表格的话,其中包含大量引用和诸如此类的内容,用于您想要研究的所有类别,确实很有帮助。
Isa Fulford:是的。还有一些功能希望在某个时候能够融入产品中,但模型能够——底层模型能够嵌入图像,以便找到产品的图像。而且——这不是消费者用例,但它也能够创建图表,然后将其嵌入到响应中。所以希望这也能很快出现在 ChatGPT 中。
Josh Tobin:是的。说到书呆子消费者用例,个性化教育也是一个非常有趣的用例。例如,如果你一直想了解某个主题,比如你需要复习生物学知识,或者你想了解一些世界大事,它非常擅长将所有你觉得不理解的信息汇总起来,然后你想让它对哪些方面进行研究,它就会为你整理出一份很好的报告。
Isa Fulford:我有一个朋友正在考虑创办一家公司,他经常用它来寻找类似的信息,看看特定名称是否已被占用——域名是否已被占用,市场规模如何,等等,所有这些不同的东西。很有趣——他会和我分享报告,我也会看,看到这些很有趣。
Josh Tobin:另一个有趣的用例是,它非常擅长在互联网上查找单个鲜为人知的事实。例如,如果有一个鲜为人知的电视节目或某个东西,您想找到其中的某一集或类似的东西,它会深入搜索并在网络上找到对它的一个引用。
Isa Fulford:哦,是的。我哥哥的朋友的父亲有一个非常具体的事实。这是关于一位奥地利将军在某场战斗中掌权——某人在战斗中死亡是一个非常小众的问题。
显然 ChatGPT 之前回答错了,他非常确定那是错的。所以他去了公共图书馆,找到了一条记录,发现那是错的。然后 Deep Research 能够纠正它,所以我们把它发给了他,他很兴奋。
Sonya Huang:当今深度研究的优势是什么?思维模型是什么?人们应该在哪里使用 o 系列模型?他们应该在哪里使用深度研究?
Josh Tobin:深度研究真正擅长的是这种情况:如果你对自己想要的东西有某种详细的描述,为了得到最好的答案,它需要阅读大量的互联网资料。如果你的问题比较模糊,它会帮助你明确你想要什么。当你在寻找一组特定的信息时,它真的发挥了最大的作用。
Isa Fulford:我认为它非常擅长综合所遇到的信息,非常擅长寻找特定的、难以找到的信息,但可能不太擅长——我猜它可以根据所遇到的信息得出一些新见解,但我认为它还没有做出新的科学发现。
然后我认为使用 o 系列模型,如果我要求与编码有关的任务,通常是不会超过预训练中已经包含知识范围。所以我会使用 o1 Pro 或 o1 进行编码或 o3-mini high。
Lauren Reeder:深度研究可以说是 OpenAI 一些新产品方向的绝佳范例。我很好奇,您能否分享一下它是如何运作的?
Isa Fulford:支持 Deep Research 的模型是 o3 的微调版本,这是我们最先进的推理模型。我们专门针对收集到的困难浏览任务以及其他推理任务对其进行了训练。因此,它还可以访问浏览工具和 Python。通过对这些任务进行端到端的训练,它学会了解决这些任务的策略,并且由此产生的模型擅长在线搜索和分析。
Josh Tobin:直观地来说,你可以这样想:你提出这样的请求,最好是详细地说明你想要什么。模型会认真思考,搜索信息,提取信息并阅读,了解信息与请求的关系,然后决定下一步要搜索什么,以便更接近你想要的最终答案。模型经过训练,可以很好地将所有信息汇总成一份整洁的报告,并引用指向它找到的原始信息。
Isa Fulford:是的,我认为深度研究作为一种 agent 能力的新颖之处在于,由于我们有能力进行端到端的训练,因此在研究过程中有很多事情你无法提前预测。
我认为不可能编写某种语言模型、程序或脚本,使其具有等同于模型通过训练学习到的灵活性。模型实际上是对实时网络信息做出反应,并根据它所看到的内容做出改变策略等。
我们实际上看到它在进行非常有创意的搜索。您可以阅读思路链摘要,我相信您有时会发现它非常聪明,可以想出下一个要寻找或绕过的东西。
Sonya Huang:John Collison 发了一条推文,引起了广泛关注。深度研究的魔力有多少是实时访问网络内容,又有多少是思维链的魔力?您能解释一下吗?
Isa Fulford:我认为这肯定是一种组合。我认为你可以看到这一点,因为其他搜索产品不一定经过端到端的训练,因此在响应遇到的信息时不会那么灵活,在解决特定问题方面也不会那么有创意,因为它们没有为此目的进行过专门的训练。所以这肯定是一种组合。
我的意思是,它是 o3 的微调版本。o3 是一个非常智能和强大的模型。许多分析能力也来自底层 o3 模型训练。所以我认为这肯定是一种组合。
Josh Tobin:在加入 OpenAI 之前,我在一家初创公司工作,我们当时正在尝试构建 agent,就像我看到大多数人在互联网上描述构建 agent 的方式一样,本质上就是构建一个操作图,图中的某些节点是语言模型。因此,语言模型可以决定下一步做什么,但发生的步骤顺序的总体逻辑是由人定义的。
我们发现,这虽然是一种构建事物以快速获得原型的强大方法,但它在现实世界中很快就会失败,因为很难预测模型可能面临的所有场景,也很难考虑你可能想要采取的所有不同分支路径。
除此之外,这些模型通常不是该图中节点的最佳决策者,因为它们没有接受过做出这些决策的训练。它们被训练去做类似的事情。所以我认为这个模型真正强大的地方在于它直接进行端到端训练,以解决用户使用它来解决的各种任务。
Lauren Reeder:所以您不必设置图表或在后端架构上做出那些类似节点的决策?
Isa Fulford:这一切都是由模型本身驱动的。
Sonya Huang:您能详细谈谈吗?因为这似乎是您做出的非常有主见的决定之一,而且显然它奏效了。有很多公司都在使用您的 API,这促使他们为特定用户解决特定任务。您是否认为,如果为这些应用程序的特定工作流程提供端到端的训练模型,它们会得到更好的服务?
Isa Fulford:我认为,如果你有一个非常具体、非常可预测的工作流程,那么做 Josh 描述的事情就很有意义。但是,如果你有的东西有很多极端情况,或者需要相当灵活,那么我认为类似于深度研究的东西可能是一种更好的方法。
Josh Tobin:是的,我认为我给人们的指导是,你不想把一些硬性规定融入到模型中。如果你有一个数据库,你不想让模型接触它,或者类似的东西,最好用人类编写的逻辑来编码它。
但我认为这就像我在这个领域看到人们一遍又一遍地重复的一个教训:我们以为我们可以通过自己编写代码来做比模型更聪明的事情。但实际上,通常情况下,随着领域的发展,模型会比人类提出更好的解决方案。
而且,你知道,机器学习最重要的教训可能是得到你优化的东西。因此,如果你能够设置系统,以便直接优化你想要的结果,那么结果将比你试图将没有针对你意图就让它们执行的任务进行端到端优化的模型粘合在一起要好得多。我认为强化学习,在模型之上进行调整,可能是构建最强大 agent 的关键部分。
Sonya Huang:实现这一目标的过程中最大的技术挑战是什么?
Josh Tobin:好吧,我的意思是,也许我可以说,作为一个观察者,而不是从一开始就参与其中的人,但这似乎是 Isa 和团队其他成员非常非常努力的事情之一,也是成功的秘诀之一,就是制作真正高质量的数据集。
这是机器学习中另一个人们不断重新学习的古老课程。但你输入模型的数据质量,可能是你在另一端获得的模型质量的最大决定因素。
Isa Fulford:然后还有像爱德华·孙这样的人,他是负责这个项目的另一位工作人员,他会优化所有数据集,这是成功的秘诀。
Lauren Reeder:你如何确保它是正确的?
Isa Fulford:是的,这显然是这个模型和产品的核心部分,我们希望它能够让用户信任输出。因此,其中一部分是我们有引文,因此用户能够看到模型从哪里引用了其信息。
在训练过程中,我们实际上会尝试确保它是正确的,但模型仍然有可能犯错或产生幻觉,或信任可能不是最值得信赖的信息来源。因此,这绝对是我们希望继续改进模型的一个活跃领域。
Sonya Huang:我们应该如何将 o3、Operator 和其他不同版本结合起来考虑?比如,这个是否使用了 Operator?它们都是相互构建的,还是都是 o3 的一系列不同应用程序?
Josh Tobin:今天,这些功能还很不连贯,但你可以想象一下我们的发展方向,即未来某个时候人们能够使用的终极 agent 不仅能够进行网页搜索或使用计算机,或者进行你希望人类助手执行的任何其他类型的操作,还应该能够以更自然的方式融合所有这些东西。
Sonya Huang:您还做出过哪些乍一看可能不太明显的设计决定吗?
Isa Fulford:我认为其中之一就是澄清流程。因此,如果您使用过 Deep Research,该模型会在开始研究之前向您提问,而 ChatGPT 通常会在响应结束时向您提问,但通常不会在前面出现这种行为。
这是有意为之,因为如果提示非常明确和详细,您将从 Deep Research 模型中获得最佳响应。我认为在第一个提示中提供所有信息,不是用户的自然行为,因此我们希望确保如果您要等待五分钟或三十分钟,您的回答也同样详细和令人满意。因此,我们添加了这些额外步骤,以确保用户提供我们需要的所有详细信息。
实际上,我在 Twitter 上看到很多人说他们有这样的流程,他们会与 o1 或 o1 Pro 交谈,以帮助使他们的提示更加详细,然后一旦他们对提示感到满意,他们就会将其发送给 Deep Research。这很有趣。所以人们正在寻找自己的工作流程来使用它。
Lauren Reeder:过去几个月,我们已经看到了三种不同的 Deep Research 产品。请告诉我们你们的特别之处以及我们应该如何看待它。
Sonya Huang:它们都被称为深度研究,对吗?
Josh Tobin:它们都被称为深度研究。是的,这个领域的命名创意并不多。我认为人们应该亲自尝试所有这些产品并感受一下。我认为它们都有优点和缺点,但我认为差异会很明显。
归根结底,这只是这个模型的构建方式和构建数据集所付出的努力,然后是我们在 o 系列模型中使用的引擎,这使我们能够优化模型,从而制造出真正智能、质量真正高的东西。
Sonya Huang:去年我们在播客上邀请了 o1 团队,我们开玩笑说 OpenAI 不太擅长命名。我会说这是你们命名最好的产品(笑)。
Lauren Reeder:我很好奇,想听听您接下来的计划。今天我们有了深度研究,您认为一年后它会是什么样子?在此过程中,您可能想建立哪些互补的东西?
Isa Fulford:我们很高兴能够扩展模型可以访问的数据源。我们已经训练了一个模型,它通常非常擅长浏览公共信息,但它也应该能够搜索私人数据。然后我认为只需进一步推动这些功能。可以更好地浏览,它可以更好地分析。是的,我认为短期内这些都是我们想要改进的地方。
Josh Tobin:是的。然后思考如何更广泛地将其融入我们的 agent 路线图。比如,我认为这里的配方可以扩展到相当广泛的用例,它们的效果会让人们感到惊讶。
但是,这个想法是采用最先进的推理模型,让它能够使用人类可以用来完成工作或日常生活的相同工具,然后直接针对您希望 agent 能够完成的结果类型进行优化。这样一来,实际上没有什么可以阻止它扩展到越来越复杂的任务,所以我觉得 AGI 现在是一个操作问题。我认为,是的,这个通用公式中还有很多东西。
Lauren Reeder:萨姆说过一句非常引人注目的话:深度研究将占到世界上所有经济上可行的任务和有价值的任务的百分之几。我们应该如何看待这一点?
Josh Tobin:我认为,深度研究无法完成你所做的所有工作,但它可以为你节省数小时,有时在某些情况下是数天。所以我认为,我们希望相对接近的是深度研究和我们接下来构建的 agent 以及我们在此基础上构建的 agent,根据你所做的工作类型,为你节省 1%、5%、10% 或 25% 的时间。
Sonya Huang:我的意思是,我认为你已经将我所做的 80% 的工作自动化了,所以……
Lauren Reeder:(笑)对我来说绝对是比较高端的。
Josh Tobin:我想,我们只需要开始写支票。
Sonya Huang:您认为是否有整个工作类别更——风险这个词不太恰当,但更适合深度研究擅长的领域?例如,我想到的是咨询,但您认为是否有特定的类别更适合深度研究?
Josh Tobin:其实我以前做过顾问。我认为没有任何工作面临风险,我根本不认为这是劳动力替代之类的事情。但对于这类知识型工作,比如,你花了很多时间查看信息并得出结论,我认为这会赋予人们超能力。
Isa Fulford:是的,我对很多医疗用例感到非常兴奋。只要能够找到针对某种疾病的所有文献或所有近期病例。
我已经看到很多医生发布关于此内容的帖子,或者他们联系我们说:「哦,我们用它来做这件事。我们用它来帮助为这位患者找到临床试验」,或诸如此类的话。
对于那些已经很忙的人来说,只需节省一些时间,那恰恰可能是他们没有时间做的事情,现在他们就可以获得这些信息。
Josh Tobin:是的。我认为这一举措的影响可能比表面上看起来的要深远一些,对吧?这不仅仅是节省了 5% 的时间,而是你原本需要花 4 个小时或 8 个小时才能完成的事情,现在你只需订阅 ChatGPT 并花 5 分钟就可以完成。
那么,如果你有无限的时间,你会做什么事情呢?现在你可能会做很多很多份这样的事情?那么,你知道吗,你是否应该对每一家你可以投资的初创企业进行研究,而不是只研究那些你有时间去见的初创企业?诸如此类。
Sonya Huang:或者从消费者角度来说,我想到的一件事是,比如那些在职妈妈们都太忙了,没时间为她的孩子策划生日派对。现在,这是可行的。所以我同意你的观点。这比你 5% 的时间重要得多。
Lauren Reeder:这些都是你以前无法做到的事情。
Sonya Huang:这对教育和我们的学习方式有什么改变?现在我们身处一个由智能体和深度研究组成的世界,你会教给孩子什么?
Josh Tobin:教育是人们使用它的几个主要用途之一。我认为这是——我的意思是,这对于 ChatGPT 来说通常是正确的。
这就像通过与人工智能系统交谈来学习东西,该系统能够根据你告诉它的内容个性化它给你的信息,或者也许在未来它对你的了解会让你觉得这是一种比阅读教科书更有效、更有吸引力的学习方式。

我们正在招募伙伴
✉️ 邮件标题
「姓名+岗位名称」(请随简历附上项目/作品或相关链接)

(文:APPSO)