喝点VC|红杉对话OpenAI Deep Research团队:AI Agent将成为今年最具突破性技术,强化学习重新回归主流

图片来源: Sequoia Capital

Z Highlights

  • Deep Research通过端到端强化学习,提升了智能体在复杂搜索和推理任务中的表现,使其比以往更高效和精准。

  • 该模型已被广泛应用于市场分析、医疗研究和代码开发,未来将在更多专业领域提供自动化解决方案。

  • AI智能体不仅能优化商业流程,还将帮助个人进行购物、旅行计划和知识学习,提高生活质量。

  • OpenAI计划让Deep Research拓展至私人数据搜索,并进一步增强其分析能力,推动AI Agent系统的进化。

  • 强化学习调优已成为构建强大AI Agent的重要方法,使其在开放环境下的推理和决策能力得到显著提升。

Training Data是一档聚焦AI研究与创新的播客节目,由红杉资本(Sequoia Capital)的Sonya Huang Lauren Reeder主持。本期节目邀请OpenAIIsa FulfordJosh Tobin,探讨最新智能体Deep Research如何通过端到端强化学习突破传统AI研究方法,并压缩数小时的知识工作至数分钟,从而革新商业与个人应用场景。

深度研究的起源与技术创新

JoshAI领域,人们屡次从实践中汲取经验。例如,最初我们认为通过自行编写代码,可以构建出比模型更智能的系统。然而,随着该领域的发展,事实证明,模型往往能够提出比人类更优的解决方案。机器学习的一个基本原则是:优化的目标决定最终的结果。因此,如果能够构建一个系统,使其能够直接优化目标结果,那么其表现通常会优于人为组合多个未针对特定任务进行端到端优化的模型。因此,我的长期指导思想是,类似于强化学习的策略,即在模型的基础上进行调整,可能是构建最强大AI Agent的关键部分。

Sonya: 我们非常荣幸地邀请到了Isa FultonJosh Tobin,他们是OpenAI“Deep research”产品的负责人。“Deep Research”产品于三周前发布,并迅速受到市场青睐,被众多科技界知名人士(如Carlton夫妇)应用于多个领域,包括行业分析、医学研究及活动策划等。

“Deep Research”采用端到端强化学习方法,针对复杂的网页浏览和推理任务进行训练。该产品是OpenAI推出的Agent产品系列中的第二款,第一款产品为“Operator”。本次访谈中,我们将与IsaJosh探讨“Deep Research”的使用场景、其技术架构,以及对OpenAI未来Agent产品的展望。IsaJosh,欢迎来到节目。

Lauren: 感谢你们的到来,我们非常期待今天的交流。 

Isa: 很高兴参与此次访谈,感谢邀请。

Lauren: 我们可以从“Deep Research”这一产品的基本介绍开始。请您讲述其研发背景及主要功能。

Isa: “Deep Research”是一款能够检索多个在线网站信息的AI Agent,它可以生成极为详尽的报告。相较于人类需要数小时完成的信息整理,该产品在ChatGPT环境下仅需530分钟即可提供答案。因此,它能够进行更深入的研究,并以比普通ChatGPT更详细、来源更丰富的方式回答用户问题。这款产品是我们发布的首批Agent之一,最近我们还推出了“Operator”Agent。此外,第二款Agent“碎片搜索者Shards Seeker)也即将在未来发布,并将持续扩展功能。

Sonya: “Deep Research”产品的研发背景是怎样的?最初的开发决策是什么?项目的灵感来源于何处?团队规模有多大?该项目的完成耗时多久?

Isa: 大约在一年前,我们在运用新推理范式及训练模型进行预思考(pre-thinking)方面取得了重大突破。当时,我们的主要研究领域集中在数学与科学,但这种新的推理机制也为解决更长期、更复杂的Agent任务提供了可能性。

我们发现,许多任务需要大量在线调研及外部信息获取,而这些任务涉及大量推理及信息筛选,同时还需要较强的创造力才能高效完成。随着技术的进步,我们终于具备了可以处理这些任务的模型训练方法。因此,我们决定探索如何训练模型以执行浏览任务,并采用与推理模型类似的训练方法,但更加贴合实际场景。

Sonya: Josh是如何加入该项目的?

Isa: 最初,我与Josh Patel正在进行一项类似的研究,并计划在适当时候发布相关成果。我们对此非常期待。当时,我们开发了一个初始演示,并与工程师Thomas Simpson合作。Thomas是一位卓越的工程师,擅长深入研究复杂问题,并推动产品不断优化。整个过程非常有趣且富有成效。

Josh: 是的,我最近重新加入了OpenAI,距离我从个人创业公司回归已有约六个月时间。在我早期于OpenAI工作时,我对多个项目进行了考察,特别对AI Agent相关的研究深感兴趣,其中“Deep Research”便是其中之一。

Lauren: 您也因此参与其中,太棒了。那么,请告诉我们,这款产品的目标用户是谁?

Josh: 是的,这款产品适用于任何以知识工作为核心的人群,无论是在日常工作还是个人生活中。因此,我们发现,许多用户主要利用它来进行市场研究、企业分析、房地产调研等工作。

Isa: 此外,我们还观察到,该产品在科学研究和医学领域也有广泛的应用,例如医学研究人员利用其查找相关文献及数据支持。

Josh: 让我们尤为兴奋的是,该产品不仅在专业领域表现优异,在个人生活场景中同样具有显著价值。例如,用户可以借助它进行购物或旅行规划,而无需耗费大量时间进行网络搜索和信息整理。

Isa: 因此,我们对即将推出的Plus版本充满期待,这将使更多人能够体验“Deep Research”的功能,并可能拓展出全新的使用场景。

Lauren: 这绝对是我过去几周用得最多的产品之一。它的效果非常棒。 

Sonya: 你用它来做什么? 

Lauren: 对我而言,我正在考虑购买一辆新车,并希望了解该车型的下一代版本何时发布。市面上有许多关于新款车型的推测性博客文章,但这些信息往往缺乏权威性。

于是,我向“Deep Research”团队提出请求,希望他们能整理所有关于该车型的传闻,并分析其中的事实依据,以及汽车制造商以往的官方声明和产品发布规律。最终,他们生成了一份极为详尽的报告,推测该车型将在未来几个月内发布。这一分析为我的决策提供了极大帮助。

Josh: 的确,该产品的优势不仅在于广泛收集关于某一主题的信息,还能够在互联网上挖掘极其细微、罕见的事实。例如,如果用户希望查找某个非常具体的问题,而该信息不会直接出现在搜索引擎的首页结果中,那么深度研究在这方面会表现得尤为出色。

Lauren: 这听起来很棒。那么,您见过哪些令人意想不到的使用案例?

Isa: 令我感到最惊讶的是,许多用户利用它进行编程相关的搜索。这并非我们最初设想的主要应用场景,但在Twitter上,我看到许多开发者使用它来查找代码、搜索编程文档,甚至用于自动化脚本的编写。它特别擅长查找某个软件包的最新文档或技术指南,以便帮助开发人员高效完成编程任务。我觉得最让我感到惊讶的是,为什么有这么多人在用它来编码,这并不是我真正考虑过的用例,但我在Twitter上看到很多人在用它来编码和搜索代码,也有很多人在用它来查找某个软件包或其他东西的最新文档,帮助他们编写脚本或其他东西。 

Josh: 是的,对于ChatGPT的技术用户而言,这或许是一个显而易见的用途。然而,该产品在这一领域的实际表现仍然令人印象深刻。

深度研究的应用场景与用户体验

Sonya: 您如何看待企业用户和个人用户之间的应用比例?随着时间的推移,您认为该产品会更偏向商业用途,还是主要面向普通消费者?  

Isa: 我认为,两者都会占据重要位置。这是一项极具普遍适用性的技术,它能够满足用户在工作和个人生活中的多种需求

Josh: 是的,我对这两方面的应用前景都感到十分兴奋。该产品的最大价值在于节省用户的时间。如果某项任务通常需要花费数小时甚至数天才能完成,“Deep Research”往往可以在短时间内提供90%甚至更多的核心信息。因此,在企业环境中,这类工具的需求可能会更为突出,但它同样会逐步融入个人生活,并成为日常决策的重要助手。

Lauren: 确实,我在使用ChatGPT时,几乎都会优先选择“Deep Research”模式,而非普通模式。在消费者使用案例方面,您有哪些观察?

Isa: 在购物和旅游规划方面,我发现该产品的应用尤为广泛。我个人也经常使用它来查找相关信息。几个月前,我们在日本参加“Deep Research”的发布活动,该产品在寻找符合特定要求的餐厅,以及查找常规搜索引擎难以发现的信息方面,表现得极为出色。

Josh: 是的,尤其是在涉及高价值决策时,例如购买昂贵商品、策划特殊旅行等,人们往往会投入大量时间进行深入研究。我个人在购买产品前,通常会浏览各种评论和论坛,以尽可能获取全面的信息。而“Deep Research”能够迅速整合这些数据,为用户提供更加精准和高效的分析,因此在这类任务中极具价值。

Isa: 该模型在遵循指令方面表现出色。因此,如果用户的查询涉及多个方面,或包含多个问题,例如,用户不仅希望获取某一产品的信息,同时也希望将其与其他产品进行比较,甚至需要查找来自Reddit或类似网站的用户评论,该模型都能够准确执行这些要求。用户可以提出多种不同需求,系统会根据指令进行处理并提供详细的分析结果。

Josh: 此外,一个值得推荐的使用方式是要求模型以表格格式呈现结果。尽管它通常会自动采用这种方式,但如果用户明确要求表格化数据展示,例如列出所研究对象的引用信息及相关内容,这将极大提高信息的可读性和分析效率。

Isa:是的,我们还希望在未来的产品中进一步拓展功能。例如,该模型的底层架构已经具备嵌入图片的能力,因此它可以用于查找产品的图片。此外,尽管这并非当前的主要消费者应用场景,但该模型还能够生成数据图表,并将其嵌入到最终的分析报告中。我们期待未来ChatGPT也能尽快实现这一功能。

Sonya:这听起来像是专为技术型用户设计的产品。

Isa: 确实如此。

Josh: 谈及技术型用户,一个极具潜力的应用场景便是个性化教育。假设用户希望深入了解某个主题,例如补习生物学知识或获取全球热点事件的详细信息,该模型能够很好地满足这一需求。用户可以输入自己希望学习的内容,系统将自动整理所有相关信息,并生成一份结构化的报告,使学习过程更加系统和高效。

Isa: 我的一位朋友目前正在筹备成立一家ACP公司,他一直在利用该模型搜索市场上类似的产品,评估相关品牌名称的可用性,例如某个域名是否已被注册,市场规模有多大等。整个过程十分有趣,每当他生成一份新的报告时,都会与我分享,我也会认真阅读这些分析结果。

Josh: 另一个有趣的应用场景是查找互联网上罕见的、难以获取的单一事实。例如,如果用户希望查找某部冷门电视剧中的特定情节或相关信息,通常在搜索引擎首页无法直接找到,但该模型可以深入挖掘互联网数据,找到相应的参考资料,并整理出一份精准的答案。

Isa: 我还可以分享一个实际案例:我哥哥的一位朋友的父亲曾提出一个极为具体的问题,涉及一位奥地利将军,他因某次战役中的特定事件而掌权。这类信息在普通搜索引擎上难以找到,而ChatGPT早期的回答也存在错误。他对此深信不疑,于是前往公共图书馆查阅历史资料,最终证实ChatGPT的回答确实有误。随后,他利用“Deep Research”进行深入查询,最终找到了正确的答案。当我们将研究结果发送给他时,他对此感到十分惊喜和兴奋。

Sonya: 从当前的应用场景来看,Deep Research主要适用于哪些类型的思维模式?用户应该如何有效利用该模型?

Josh: “Deep Research”特别擅长于对用户需求进行深入分析,并提供详尽的回答。为了获得最佳结果,用户需要阅读大量相关的互联网资料。如果查询内容较为模糊,该模型可以帮助用户进一步澄清需求;但如果用户已经明确需要查找特定信息,那么该模型的优势便能够得到最大程度的发挥。

Isa: 此外,该模型在信息整合方面也具有极强的能力。它不仅擅长搜索特定信息,还能够从已有数据中总结新的见解。尽管目前它尚未具备独立进行科学发现的能力,但在分析现有数据方面已表现出色。在实际使用中,例如涉及编程相关查询时,如果查询内容属于模型已有的知识范畴(例如常见的编程问题或代码片段),通常无需额外的训练数据即可提供准确的答案。我个人在编码时更倾向于使用o系列模型,例如o1 Proo3 Mini High,以获取更精准的技术支持。

Lauren: 这听起来与OpenAI近期推出的一些新产品方向高度契合。能否进一步介绍该模型的运行机制?

Isa: “Deep Research”采用的是OpenAI最先进的推理模型o3的微调版本。我们专门针对复杂的网页浏览任务及其他高难度推理任务进行了训练,使其在分析和整合信息方面表现卓越。此外,该模型还能够调用浏览工具和Python计算工具,以便在信息收集与数据处理方面提供更强的支持。通过不断训练和优化,该模型已能够有效应对复杂问题,并生成系统化的分析结果。

Josh: 从直观的角度来看,该模型的工作方式可以理解为:当用户输入查询请求时,系统会先进行深入思考,并制定信息搜索策略。随后,它会检索相关数据、提取关键信息、理解内容与查询的相关性,并根据结果决定下一步的搜索方向。整个过程经过多轮优化,以确保最终生成一份结构完整、逻辑清晰的报告,同时附带完整的参考文献及数据来源。

Isa: “Deep Research”传统搜索引擎的主要区别在于,它不仅能够执行搜索任务,还具备高度灵活的推理能力。由于我们采用了端到端训练方式,该模型能够在研究过程中动态调整策略,而非依赖预设的查询流程。这使得它在面对不可预测的信息检索任务时,能够更灵活地适应不同情况。用户可以在查询过程中阅读模型的思维链摘要Chain-of-Thought Summaries),其中详细记录了模型如何推导每一步搜索策略,这在复杂研究任务中尤其具有价值。

Sonya: 约翰·卡尔森(John Carlson)在Twitter上发布了一条广受关注的推文,他认为深度研究的核心能力部分来自于其对互联网内容的实时访问,另一部分来自于其推理链条(Chain of Thought)。您如何评价这两者在模型中的作用?

Isa实际上,这两方面的结合才是“Deep Research”成功的关键。许多现有的搜索产品虽然具备信息检索能力,但由于未经过端到端优化训练,因此在处理复杂查询时不够灵活,也缺乏针对性。而深度研究依托o3模型的微调版本,具备强大的分析能力,同时结合了底层o3训练所形成的推理链,使其能够在信息整合方面展现出高度的创造性。因此,我认为其核心竞争力正是来源于这两种能力的结合。

Josh: 在加入OpenAI之前,我曾在一家初创公司工作,当时我们的研究重点是如何构建AI Agent。当时,许多研究者在互联网上探讨的构建方法大致相同,其核心思路是建立一个操作流程图(workflow graph),其中的某些节点由语言模型控制。

也就是说,语言模型可以决定下一步该执行的任务,而整体的逻辑框架则由人类事先定义。虽然这种方法能够快速搭建出原型,但在实际应用中,它的局限性很快显现出来。因为在现实世界中,模型可能会遇到各种不可预测的情况,而传统的预设流程图很难覆盖所有可能的分支路径。此外,在这些决策节点上,语言模型往往不是最优的决策者,因为它们并非专门为此类任务训练,而是基于已有的语言推理能力进行决策。

因此,我认为“Deep Research”真正的优势在于,它直接针对用户所面临的具体问题进行训练,而不是依赖预设的流程结构。这样,它可以更灵活地适应复杂的实际应用场景。

Lauren: 这样一来,用户就无需在后台手动搭建架构或流程图来做出决策。

Isa: 是的,整个系统完全由模型自动驱动。

Sonya: 能否进一步说明这一点?这似乎是你们在产品设计中做出的一个重要决策,而且事实证明它的确行之有效。目前,许多公司都在OpenAIAPI之上开发应用,以帮助用户完成特定任务。那么,在所有这些应用中,是否更适合使用一个经过训练的端到端模型,以优化特定的工作流程?

Isa: 这取决于具体的应用场景。如果某个工作流程高度标准化且具有较强的可预测性,那么按照Josh描述的方式构建Agent是合理的。然而,如果任务涉及大量边缘情况,或者需要高度灵活的推理能力,那么类似“Deep Research”这种方法可能更为合适。

Josh: 是的,我通常给出的建议是,尽量减少对模型的刚性约束。例如,如果某些数据不应被模型访问,或者某些操作需要受到严格控制,那么可以使用手写的逻辑来实现这些限制。然而,在模型的优化过程中,我们反复学习到的一个重要经验是,很多时候,人们以为可以通过手写代码来构建比模型更智能的逻辑,但事实上,随着技术的发展,模型往往能够提出比人类更优的解决方案。

机器学习的基本原则之一是:优化什么,就会得到什么。如果能够直接优化系统的最终目标,而不是通过人为拼接多个未端到端优化的子系统,那么最终结果往往会更加优越。因此,我认为在模型基础上引入强化学习进行微调,可能是构建高效Agent的关键步骤。

Sonya: 在实现这一目标的过程中,最大的技术挑战是什么?

Josh: 从我的角度来看,作为一个后来加入团队的成员,我观察到该项目最关键的成功因素之一是数据质量的控制。欧空局(ESA)和团队的其他成员在这一方面投入了大量努力,而数据质量几乎决定了最终模型的效果。

在机器学习领域,人们经常重新认识到这样一个事实——模型的性能在很大程度上取决于输入数据的质量。如果训练数据质量较低,那么无论模型架构多么先进,最终的效果都难以达到预期。

Isa: 此外,找到合适的人才也至关重要。例如,我们团队中的Edward Son便在数据优化方面发挥了关键作用。他能够确保训练数据的质量,并根据不同任务需求提供最合适的数据集。这也是项目取得成功的重要因素之一。

Lauren: 换句话说,找到你的“Edward”就意味着成功?

Josh:可以这么说。优秀的机器学习和模型训练很大程度上依赖于数据专家的贡献。

Lauren: 如何确保模型输出的可靠性?

Isa: 这正是我们在产品设计中非常关注的一点。我们的目标是让用户能够信任模型生成的内容。为此,我们采用了多种机制,例如提供引文支持,使用户可以追溯模型所引用的信息来源。此外,在训练过程中,我们尽量减少幻觉(hallucination)现象,避免模型生成错误或未经验证的信息。

当然,我们仍然在不断优化这一点。尽管模型已经具备较强的可信度,但仍然有可能出现错误或引用不够权威的信息来源。因此,如何进一步提高模型的可靠性,是我们持续改进的重点方向。

Sonya: 我们应该如何理解“Deep Research”o3Operator之间的关系?它们是否共享相同的架构,还是各自独立?

Josh: 目前,它们是相互独立的产品。不过,我们的最终目标是构建一个真正通用的AGI Agent。未来,该系统不仅能够执行网页搜索,还能完成各种计算机操作,甚至是人类助手所能完成的任何任务。而我们希望,它能够以最自然的方式将这些能力整合在一起,从而实现更强大的自动化能力。

Sonya: 在开发过程中,你们还做出了哪些不太明显、但却至关重要的设计决策?

Isa: 其中一个关键决策是优化用户交互流程。我们发现,模型在回答问题之前,若能先向用户澄清查询内容,那么最终的回答质量会更高。因此,在深度研究中,我们特别设计了一种交互模式,使模型在正式开始研究之前,会主动向用户提问,以确保问题的明确性。

相较之下,传统的ChatGPT可能只会在回答结束后,才会询问用户是否需要补充信息。但在深度研究中,我们刻意将这一环节前置,以提高回答的精准度。这一改动让模型能够更全面地理解用户的需求,即便研究过程需要花费530分钟,最终生成的报告也会更加详尽和可靠。

Isa: 有趣的是,我在Twitter上看到一些用户已经自行摸索出了一种使用流程:他们会先使用GPT-4GPT-4 Pro来优化查询内容,使其更具体、更详细,然后再将最终优化的查询提交给深度研究进行深入分析。这表明,用户正在探索适合自己的工作流程,并且这种方式确实能够提升研究质量。

Lauren: 在过去几个月里,你们推出了多个版本的“Deep Research”产品。请问不同版本之间有何区别?我们应该如何理解它们?

Sonya: 它们都被称为“Deep Research”,对吗?

Josh: 许多人都在询问,这款“Deep Research”产品究竟是如何运作的?确实,在这个领域,产品的命名创意并不多。我认为,最好的方式是让用户亲自体验,从而获得直观的感受。

尽管不同版本的深度研究在质量上各有优劣,但它们之间的区别是显而易见的。归根结底,这些差异主要源于模型的训练方式以及数据集的构建过程。此外,我们依托O系列模型引擎,对其进行了优化,使其成为真正智能、高质量的研究工具。

Sonya: 去年,o1团队曾参与我们的播客节目,当时我们开玩笑地说,OpenAI并不擅长给产品命名。不过,现在看来,你们似乎在这方面做得非常出色。

Josh: 至少,“Deep Research”这个名称准确地概括了其核心功能。

Lauren: 那么,请分享一下你们的未来发展规划。你们预计一年后的产品形态将如何演变?在此过程中,还有哪些值得期待的新功能或改进?

Isa: 我们非常期待能够扩展该模型所能访问的数据来源。目前,该模型主要用于浏览公共信息,但未来它应该具备检索私人数据的能力。此外,我们希望进一步提升其分析能力,使其在更复杂的研究任务中表现更佳。

Josh: 从更广泛的角度来看,我们希望将这项技术进一步融入OpenAIAI Agent路线图。事实上,该模型的设计理念可以扩展到许多应用场景,并带来令人惊喜的效果。

核心思想是,利用最先进的推理模型,让其能够使用人类在日常工作和生活中使用的工具,并直接针对预期目标进行优化。这种方法不仅适用于当前的研究任务,也能扩展到更复杂的任务领域。因此,我认为,虽然当前的AGI仍然是一个待解决的问题,但这个通用公式仍然有很大的发展空间和优化潜力。

未来展望:深度研究的演进与AI Agent的崛起

Lauren: Sam经说过一句发人深省的话:“Deep Research将在全球所有经济上可行且有价值的任务中占据一小部分。你们如何看待这一观点?

Josh: 我认为,Deep Research并不会完全替代所有工作,但它可以大幅减少执行某些任务所需的时间。例如,它可以帮助用户节省数小时甚至数天的研究时间。

在此基础上,我们未来开发的AGI Agent将在深度研究的基础上进一步优化,使用户的研究和分析任务效率提升1%5%10%乃至25%,具体增益取决于不同的工作类型和应用场景。

Sonya: 事实上,我感觉它已经自动完成了我80%的工作。

Lauren: 对我而言,这绝对是一款高端工具。

Josh: 看来,我们或许应该开始收费了。

Sonya: 你是否认为某些职业会面临更大的风险?比如,在咨询行业中,Deep Research的应用可能会带来较大影响。你认为哪些具体的职业类别最容易受到影响?

Josh: 是的,我曾有咨询行业的背景。虽然许多人担心AI取代某些工作,但我并不认为这是劳动力的完全替代。相反,我认为它更像是一种赋能工具,能够让知识型工作者更高效地完成任务。

许多职业需要花费大量时间查阅信息、整合数据并得出结论,而Deep Research能够在这一过程中提供强大支持,从而赋予人们更强的能力。

Isa: 我对医疗领域的应用尤为感兴趣。目前,许多医生已经在使用深度研究来查找最新的医学文献,或者查询针对特定病症的最新临床研究。我看到许多医生在社交平台上分享自己的使用体验,甚至有医生主动联系我们,表示他们成功利用该工具帮助患者找到合适的临床试验。

对于那些日程繁忙、难以抽出时间进行深入研究的医生而言,这无疑是一个极大的帮助。

Josh: 实际上,这种技术的影响可能比表面上看起来更加深远。它不仅仅是帮你节省5%的时间,而是能够极大优化一些通常需要48小时完成的任务。例如,现在你可以在短短五分钟内完成一个ChatGPT订阅所提供的研究任务。

如果时间不再是限制因素,你会选择做什么?例如,你可以深入研究每一个潜在的创业机会,而不仅仅是那些你有时间亲自接触的项目。这种时间优化将对个人和企业决策带来深远影响。

Sonya: 没错。以消费者场景为例,比如一位忙碌的母亲需要为孩子筹办生日派对,现在她可以利用深度研究来快速策划出最佳方案。而在过去,这可能需要花费数小时甚至数天的搜索和比较。

Lauren: 这确实让许多过去无法完成的任务变得可行。

Isa: 完全正确。

Sonya: Deep ResearchAGI Agent功能是否会改变我们的学习方式?在这样一个技术环境下,你会如何教育你的孩子?

Josh: 是的,教育一直是人工智能应用的一个重要领域。我认为,AI驱动的对话式学习模式比传统的阅读教科书更具吸引力,并且可以实现高度个性化的教育体验

人工智能系统可以根据用户的反馈调整学习内容,并提供针对性的知识讲解。这种交互式学习方式不仅能够提升学习效率,还能够激发学习兴趣。

快问快答

Lauren: 接下来,我们进入快速问答环节。

Josh: 好的。

Sonya: 你最喜欢的Deep Research应用场景是什么?

Josh: 个性化教育。无论是学习新知识,还是深入研究特定领域,它都能提供极大的帮助。

Isa: 我最感兴趣的案例是用户利用深度研究来查找自己或家人的医疗诊断信息,这些真实的个人故事令人印象深刻。

Sonya: 去年,我们见证了一些AI应用的突破,例如代码生成成为一个显而易见的突破点。你认为今年哪些应用类别会迎来重大进展?

Isa: 我认为,AI Agent无疑是下一个突破点。

Sonya: 2025年,AI agent将成为主流

Lauren: 是的,的确如此。那么,你们会如何建议人们阅读哪些资源,以更深入地了解AI Agent或人工智能的发展趋势?是否有推荐的作者或培训课程?

Sonya: 数据方面呢?

Isa: 或许可以从这个播客入手?

Josh: 要紧跟人工智能领域的技术进展确实不容易。我的建议是,选择一到两个你真正感兴趣的子领域,并围绕它们整理一份学习清单。这份清单可以包括该领域的核心研究人员、相关论文、论坛或讨论社区,以及如何获取相关资源。

事实上,这本身就是一个很好的“Deep Research”应用场景。例如,用户可以使用“Deep Research”深入挖掘自己感兴趣的主题,以获取最全面、最准确的信息。

Isa: 虽然这已经是几年前的书籍,但我仍然推荐《强化学习基础》(Foundations of RL——作者是Piece Reveal。我认为这本书对强化学习的理论和应用做出了非常系统的介绍,是一本很好的入门读物。

Josh: 如果我的研究生导师Peter出版了相关书籍,我一定会强烈推荐。

Isa: 确实如此。

Sonya: 强化学习似乎经历了起伏——它曾迎来高峰期,随后有所沉寂,而现在又重新回归主流。你认为这是对强化学习发展趋势的正确解读吗?

Josh: 是的,强化学习在过去几年里一度被忽视。

Sonya: 那么,它为何在此刻重新崛起?

Josh: 这主要是因为人工智能的其他关键技术已经取得了突破。如果你关注这个领域已有一段时间,或许会记得约翰·拉贡(John Lagou)的蛋糕比喻。他将AI训练过程比作制作蛋糕:

无监督学习 是蛋糕的主体;

有监督学习 是蛋糕上的糖霜;

强化学习 则是顶端的樱桃。

2015年至2016年,我们曾专注于强化学习的研究,但当时的进展受限,因为蛋糕还未成型。如今,随着语言模型的成熟,我们已经拥有了在大规模数据上预训练的强大模型,并且具备了对这些模型进行有监督微调的能力,使其能够更好地遵循指令并执行特定任务。

因此,如今强化学习终于迎来了合适的发展时机,能够针对各种明确的奖励函数进行优化,使得AGI Agent和复杂决策系统变得更加高效和可行。

Sonya: 从这次访谈来看,AI Agent将成为2025年最具突破性的技术类别,而强化学习也重新回归主流。这是一个令人激动的趋势!

非常感谢你们的参与!我们十分期待“Deep Research”及相关产品的未来发展。祝贺你们取得如此令人瞩目的成就,我们迫不及待想看到更多创新成果的诞生。

原视频:OpenAI’s Deep Research Team on Why Reinforcement Learning is the Future for AI Agents

https://www.youtube.com/watch?v=bNEvJYzoa8A&list=PLOhHNjZItNnMm5tdW61JpnyxeYH5NDDx8&index=1

编译:Asti Gao

请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

——-

(文:Z Potentials)

欢迎分享

发表评论