一文读懂 Deep Research:竞争核心、技术难题与演进方向

在2025年的AI Agent探索浪潮中,”深度研究”类产品可以说是最早成功落地的一批。

从2024年底谷歌发布其首个深度研究产品开始,短短数月内,OpenAI、Anthropic等行业巨头迅速跟进,推出了功能强大的商业竞品;OpenDeepResearcher、HKUDS/Auto-Deep-Research、Camel-AI/OWL、OpenManus等明星项目构成的繁荣开源社区也拔地而起。至今,已有超过80个团队投身于此。

经过一段时间的探索,这个领域已积累了相当规模和丰富的实践经验,形成了多样的技术路线和架构选择,整个探索格局已经初步成型。因此,现在正是对这一领域进行一次系统性梳理和总结的最佳时机。

最近,来自浙江大学的学者撰写了一篇综述,《A Comprehensive Survey of Deep Research: Systems, Methodologies, and Applications》,为我们提供了一整套理解、评估和展望该领域的认知框架。

文章揭示,当前深度研究系统的生态已经呈现出显著的差异化,竞争的焦点不再是单一的模型能力,而是系统架构、工程优化与应用场景适配度的综合比拼。

一个关键的成熟标志是,评估体系正从笼统的通用基准,迅速演进为面向特定科研或商业场景的高度专业化测评,这意味着“好”与“坏”的判断正被“适合”与“不适合”的考量所取代。

在技术实现层面,多智能体协同架构正成为备受关注的前沿方向,但所有系统都必须面对并解决幻觉控制、安全隐私和过程可解释性这三大核心工程挑战。

展望未来,文章预测下一代系统将沿着一条从信息处理到知识创造的路径演进,其根本驱动力将来自于推理架构的深刻变革,以及从发现关联性到理解因果性的能力跃迁,最终目标是让通用AI平台演化为服务于特定垂直领域的深度赋能工具。


超 8000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群: 
进群后,你有机会得到:
  • 最新、最值得关注的 AI 新品资讯; 

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道



01 

现有系统的比较分析:

技术权衡与应用分野

深度研究(Deep Research)系统的生态并非整齐划一,而是呈现出显著的多样性。不同系统在技术实现、设计哲学与目标应用上各有侧重,形成了丰富的竞争与互补格局。这种差异化源于各个系统在核心能力上的不同权衡。

从核心技术能力来看,系统间的差异首先体现在其“基础模型与推理效率”上。

以 OpenAI/DeepResearch 和 Gemini/DeepResearch 为代表的商业巨头,依托其强大的专有大模型,在上下文长度和复杂推理上占据优势,使其能够处理更海量的信息并保持更高的逻辑连贯性。

与此同时,Perplexity/DeepResearch 的成功则证明,通过对顶尖开源模型(如DeepSeek-R1)进行深度优化和工程打磨,同样可以实现极具竞争力的性能,这体现了“模型原始能力”与“系统工程优化”之间的权衡。

其次,在“工具集成与环境适应性”方面,系统展现出“大而全”与“小而精”的分野。

如 AutoGLM 和 Manus 致力于构建整合了网页浏览、API调用和文档处理的全能平台,而 Nanobrowser 等工具则专注于提供极致的网页交互能力,n8n 则在API集成与工作流自动化方面无出其右。

在系统的“任务规划与执行稳定性”层面,不同的设计哲学导致了不同的能力画像。基于 OpenAI/AgentsSDK 的系统长于通过层级化任务分解来处理复杂流程,而 Agent-RL/ReSearch 则利用强化学习来提升系统在面对意外状况时的鲁棒性和适应性。

以 smolagents 为代表的多智能体系统则通过任务分发与协作来提升并行处理效率。最后,在“知识综合与输出质量”这个直接影响最终成果的环节,商业系统通常在报告的结构化、信息源的评估以及引用的规范性上更为成熟。

而一些开源项目则在特定方面形成特色,例如 HKUDS/Auto-Deep-Research 侧重于交互式探索,grapeot/deep_research_agent 则将重心放在事实校验的严格性上。

这些技术层面的差异,直接决定了不同系统在具体应用场景中的“适用性分野”。

在“学术研究”场景中,对引用的严谨性、方法论的分析能力以及对学术数据库的接入能力要求极高,这使得 OpenAI/DeepResearch 和 Perplexity/DeepResearch 等系统表现出众。

在“企业决策”场景下,核心需求转变为信息的时效性、与企业内部数据源的集成能力以及产出洞察的可操作性,Gemini/DeepResearch 和 Manus 等系统凭借其强大的数据整合与分析框架占据优势。

而在“个人知识管理”场景中,用户的关注点则更多地落在交互界面的易用性、个性化定制能力以及是否支持本地部署以保护隐私,这为 Open-Manus 和 nickscamara/open-deep-research 等灵活的开源方案提供了广阔空间。

最终,这些定性分析得到了“性能指标与基准测试”的量化数据支持。总体而言,在衡量综合认知能力的复杂基准测试(如 HLE 和 GAIA)上,领先的商业系统依然保持优势。

然而,在更专门化的评测中,不同系统的特长得以显现:例如 Perplexity/DeepResearch 在事实性问答基准 SimpleQA 上得分极高,而 AutoGLM 则在网页自动化测试集 WebArena 上表现优异。这再次印证了当前生态的多元化特征。

更值得关注的趋势是,评估体系本身正朝着高度专业化的方向深度演进,其标志就是一系列专用基准(Specialized Benchmarks)的涌现。为衡量AI在真实科研活动中的辅助能力,业界开发了如 AAAR-1.0 这样包含150个多领域任务的综合性研究助理能力评测,以及专注于科学工作流自动化评估的 MASSW 基准。

评测的粒度甚至进一步细化到特定的科学领域,例如用 TPBench 评估系统在理论物理领域的推理能力,或用 INQUIRE 检验其在生态学研究中的专业图像检索水平。

鉴于计算在现代研究中的核心地位,针对数据科学和编程能力的评测也日益增多,包括评估端到端数据科学任务的 DSBench,以及检验科学代码生成能力的 SciCode 和跨多领域编程的 DomainCodeBench

同时,为了匹配AI的多模态发展趋势,评测也进入了多维感官时代,出现了如 MMSci(研究生水平的多模态科学问答)、ScienceQA(带解释链的多模态科学问答)乃至 GMAI-MMBench(医学多模态)等专业基准。

这一系列高度专业化基准的涌现,标志着对深度研究系统的评价,正从一个笼统的“好坏”判断,走向一个更加精确、面向特定场景的“适配度”衡量,深刻地反映了该领域走向成熟和应用深化的过程。



02 

实现技术与核心挑战:

从架构选型到工程实践

将深度研究(Deep Research)系统从理论概念转化为稳定可靠的应用,是一项涉及基础架构设计、系统集成与安全保障的复杂系统工程。其实现路径并非单一,而是充满了在不同工程目标之间的战略权衡。系统的最终形态,取决于其在架构设计、运行效率与功能集成等多个维度上的综合考量。

系统构建的起点是架构模式的选择,这决定了系统的基本骨架和运作逻辑。当前业界主要呈现出四种不同的架构范式。

第一种是单体式架构(Monolithic Architecture)。它将所有功能模块紧密集成于一个中央推理引擎周围,如 OpenAI/DeepResearch 的实现。这种模式的优势在于控制流程统一,能够保证高度的推理连贯性,且开发相对简单;其代价是系统的扩展性和并行处理能力受限。

第二种是流水线架构(Pipeline-Based Architecture),它将研究工作流分解为一系列独立的、顺序连接的处理阶段,以 n8n 等工作流自动化平台为代表。其优点是模块化程度高,易于定制和复用组件,但对于需要复杂迭代和全局反馈的研究任务则显得过于僵化。

第三种,也是当前备受关注的,是多智能体架构(Multi-Agent Architecture)。这种模式将研究任务分解,分配给多个具备专门角色(如“搜索员”、“分析员”、“批判员”)的自主智能体协同完成,代表性系统有 smolagents/open_deep_research

其核心优势在于卓越的可扩展性、并行处理能力和功能专业化,特别适合处理复杂的研究任务。然而,其主要挑战在于如何有效协调众多智能体,确保最终结果的整体一致性与逻辑严密性。

第四种是混合式架构(Hybrid Architecture),它务实地结合了上述多种模式的优点,例如将多智能体用于并行信息搜集,同时保留一个中央推理核心用于最终的综合分析,如 Perplexity/DeepResearch 的设计。

这种模式灵活性最高,但实现复杂度也相应增加。此外,整个生态正受益于 LangGraphCrewAI 等新兴智能体开发框架的成熟,它们为构建这些复杂架构,特别是多智能体系统,提供了标准化的组件和协议,极大地加速了开发进程。

在确定了宏观架构之后,系统的性能表现则高度依赖于底层的“基础设施与计算优化”。无论采用何种架构,高效的推理与信息检索都是核心瓶颈。为此,先进的系统普遍采用分布式推理并行搜索技术。

例如,通过引入 LightLLM 或 VLLM 等高效的大语言模型服务框架来优化计算资源利用,同时像 Perplexity/DeepResearch 那样,在信息搜集阶段并行发出数十个查询指令,从而显著缩短数据获取时间。

此外,自适应资源分配策略也日益重要,系统能够根据任务的复杂性动态调配计算资源,以达到性能与成本的最佳平衡。

最后,任何一个成功的系统都必须解决系统集成的问题。标准化的接口(API)和工具使用框架是关键,它确保了内部组件与外部服务(如使用 LlamaIndex 进行数据检索,或集成 GitHub Copilot 等AI编码助手进行计算型研究)能够无缝协作。

然而,所有实现方案都必须直面并解决几个共通的核心技术难题。

首先就是“幻觉控制与事实一致性”,即如何确保系统生成内容的准确性。主流解决方案是采用“来源标定”(Source Grounding)技术,强制要求所有关键论述都能追溯到原始信源。

其次是“隐私保护与安全设计”,在处理敏感信息时,必须通过严格的数据隔离和访问控制来保障用户隐私和数据安全。

最后,也最为重要的是,“可解释性与透明度”,尤其在科学研究等严肃应用中,系统必须能清晰地展示其推理过程和信息来源,这是建立用户信任、符合科学方法论的基本要求。


03 

评估体系的构建:

从单一指标到多维框架

对深度研究(Deep Research)系统进行严谨的评估,本身是一项极具挑战性的任务。其固有的复杂性在于,这类系统的产出并非简单的对错判断,而是一个涉及信息检索、分析、综合与表达的完整研究过程。

因此,评估这类系统效能的科学方法,正从依赖单一、孤立的性能指标,迅速演进为一个更加全面、系统化的多维评估范式。这一范式的核心目标,是全面刻画一个系统在功能、性能与真实应用情境下的综合表现。

评估体系的第一个维度是功能性评估,它聚焦于系统完成研究任务的核心效能。这首先体现在基础的“任务完成能力”上,即系统能否成功执行一个给定的研究指令。

为此,业界开发了如 WebArenaMobileArena 及领域专用的 AutoPenBench 等标准化测试集,通过量化“任务成功率”(Task Success Rate)来提供客观的性能基准。

然而,仅有任务成功是不够的,其研究过程的质量同样关键。因此,功能性评估进一步深入到“信息检索质量”,采用“精确率”(precision)、“召回率”(recall)与“F1分数”等经典指标。

尽管存在像 TREC 这样的权威信息检索评测基准,但更先进的评估已开始关注“来源多样性”(Source Diversity Assessment),以确保信息来源的全面与无偏。最后,在获取信息之后,系统将信息转化为洞察的“知识综合准确性”成为评估的重中之重。

这一层面通过引入如 TruthfulQA 和 HLE (Humanity’s Last Exam) 等基准来评估其内容的真实性,同时通过“逻辑连贯性评估”(Logical Coherence Assessment)来检验其论证的严密性。

评估体系的第二个维度是非功能性评估,它超越了“能做什么”的范畴,转而关注“做得怎么样”,直接关系到系统的实践可用性。此维度首先包含“性能与效率”指标,例如通过“响应时间分析”(Response Time Profiling)衡量速度,并通过“资源利用率评估”(Resource Utilization Assessment)及其相关的 Minerva 基准来考察其计算和内存效率。

其次是“可靠性与稳定性”指标,通过“错误率分析”(Error Rate Analysis)和“长期稳定性评估”(Long-Term Stability Assessment)来衡量其在真实生产环境中的稳健程度。

最后,“用户体验与易用性”构成了非功能性评估的另一核心,它采用行业标准的“系统可用性量表”(System Usability Scale, SUS)及对“学习曲线”(Learning Curve)的评估来衡量其设计的直观性与易学性,这直接影响到技术的采纳率和用户的实际效能。

评估体系的第三个,也是更趋成熟的维度,是情境化与前瞻性评估。它承认通用的基准测试不足以完全反映系统在特定专业领域的真实价值。因此,“跨领域评估基准”应运而生。

例如在学术领域,虽然尚缺乏公认的文献综述基准,但已有机构提出使用高质量期刊(如 Nature Reviews)作为黄金标准,并利用 GAIA 等测试集评估复杂推理能力;在金融领域,则有 FinEval 这样的专用基准;而在通用知识领域,SimpleQA 用于评估事实问答,MMLU 则覆盖了人文社科等更广泛的学科。

与此同时,评估方法本身也在不断创新。例如,新兴的“交互式评估框架”,特别是像 QuestBench 这样的基准,专门用于评估系统在信息不充分时提出澄清问题的能力。

此外,“多模态研究评估”与“伦理及偏见评估”正成为不可或缺的部分,前者衡量系统整合文本与视觉等信息的能力,后者则关注其能否遵循伦理准则并避免放大社会偏见。这标志着评估体系正从单纯的技术性能考量,走向对技术社会责任的全面审视。



04

深度研究系统推理架构的四大演进方向

深度研究系统的推理能力正面临根本性突破。当前系统虽然在信息检索和初步分析上表现出色,但在处理真正复杂的研究任务时仍显力不从心。未来的推理架构正在朝着四个关键方向演进。

方向一:突破上下文窗口的物理限制

当前的核心瓶颈在于上下文窗口的硬性限制。 现有系统在处理大规模研究材料时,经常因token数量超限而被迫丢弃信息。这直接制约了系统进行深度、全面分析的能力。

解决方案正在两个维度展开:

信息压缩与优先级管理成为首要突破口。OpenAI的DeepResearch系统已经实现了基础的长文档摘要功能,但这仅是开始。

真正的挑战是让AI像经验丰富的研究者那样,知道什么该详细记录,什么可以简单概括。一些研究通过分层处理展示了一种可能:系统先构建文档的层次化表示,保留多个细节层级,然后根据当前研究焦点动态选择合适的细节程度。

Sandholm团队的语义导航技术则从另一个角度解决问题——通过理解问题空间的结构,系统可以提前过滤掉无关信息,将宝贵的上下文空间留给真正重要的内容。未来的系统将结合这两种思路,既能智能压缩已有信息,又能预判信息的重要性。

外部记忆架构则代表了更激进的解决思路。Camel-AI的OWL系统展示了基础的检索增强生成能力,但未来的架构将实现真正的”无限记忆”。

这种架构的核心思想是让AI系统像人类研究者一样工作——不需要把所有资料都记在脑子里,而是知道什么时候需要去”查阅文献”。

系统将在主要推理过程之外维护一个庞大的知识库,通过智能检索机制精准调用所需信息。关键创新在于让这种检索过程成为推理的自然组成部分,而不是简单的信息查找。系统需要在规划分析策略时就考虑到哪些信息可以即时获取,哪些需要深入检索,从而优化整个研究流程。

方向二:神经与符号推理的深度融合

目前深度研究系统过度依赖纯神经网络方法,缺乏显式的推理结构,这导致了可靠性和可解释性问题。

未来的混合架构将在两个层面实现突破:

神经网络-符号集成架构正在成为主流方向。Camel-AI的OWL系统已经在神经网络架构中嵌入了结构化知识表示,这只是起点。

真正的融合需要系统在不同的推理模式间灵活切换。当面对创造性任务时,系统依靠神经网络的模式识别和联想能力;当需要严格推理时,则切换到符号逻辑系统进行形式化验证。这种混合架构的关键在于让两种模式无缝协作——神经网络生成的假设可以被符号系统验证,符号推理的结论可以指导神经网络的学习方向。更进一步,系统需要能够在复杂的研究工作流中,根据每个子任务的特点自动选择最合适的推理方式。

高级知识图谱集成则超越了静态的实体关系建模。HKUDS的Auto-Deep-Research系统展示了基础能力,但真正的突破在于实现知识的动态演化。

未来的知识图谱不再是固定的数据结构,而是一个会”生长”的有机体。当AI发现新的研究成果时,这些发现会自动更新到知识图谱中;反过来,更新后的图谱又能帮助AI发现新的研究方向。这种双向互动的关键在于引入不确定性和概率推理——不是所有的知识都是确定的,系统需要表达”可能的联系”和”有争议的观点”。同时,根据不同的研究需求,系统能够在宏观概念和微观细节之间灵活切换视角,就像研究者既能把握大局又能深入细节。

方向三:从相关性分析到因果推理

当前系统的致命弱点是只能识别相关性,无法进行可靠的因果分析。 这严重限制了系统在医学、社会科学和政策分析等领域的应用价值。

因果推理能力的提升聚焦于两个核心技术:

因果推断机制的开发是首要任务。未来的因果推理系统需要三层能力建设。首先是因果图的自动构建——系统能够识别变量间的因果路径,明确区分直接效应和间接效应,并标注潜在的混淆因素。

其次是对因果关系强度的量化评估——不仅判断”A是否导致B”,更要回答”A对B的影响有多大”以及”这个判断的可信度如何”。最后是结构化的分析框架——通过专门设计的提示和推理模式,引导系统进行系统性的因果分析,而非随机的相关性探索。

干预建模技术则将因果理解转化为实际应用。Agent-RL的ReSearch系统在强化学习框架内实现了基础的干预模拟,展示了这一方向的潜力。

真正的突破需要系统具备”假如……会怎样”的推理能力。这意味着系统不仅要理解当前的因果关系,还要能够模拟干预后的连锁反应。例如,在政策分析中,系统需要预测”如果提高最低工资”会对就业、消费和通胀产生什么影响。这种能力的核心是反事实推理——基于已有的因果模型,探索在不同假设条件下的可能结果。同时,系统还需要识别哪些干预点具有最大的影响力,帮助决策者找到最有效的行动方案。

方向四:多维度不确定性的精确表征

现有系统采用过于简化的不确定性表示,无法区分知识局限、固有随机性和模型缺陷等不同类型的不确定性。

解决方案在两个技术路径上展开:

多维不确定性建模框架正在成为新标准。Perplexity的DeepResearch系统已经开始区分源不确定性和集成不确定性,但完整的框架需要更细致的刻画。

真正的挑战在于区分三种根本不同的不确定性:知识的局限性(我们不知道的)、世界的随机性(本质上不确定的)、以及模型的缺陷(我们表达不准的)。例如,在预测选举结果时,民调数据的误差属于知识局限,选民的随机行为属于固有随机性,而模型对选民行为的简化假设则是模型缺陷。未来的系统需要分别追踪这些不确定性在推理过程中的传播,并通过直观的方式向用户展示每种不确定性的影响。更重要的是,在做决策时,系统要根据不同类型不确定性的特点采取相应的策略。

贝叶斯推理集成提供了原则上的不确定性处理方法。

贝叶斯方法的核心优势在于能够系统地整合先验知识和新证据。当系统遇到新信息时,不是简单地覆盖旧有认知,而是根据证据的可靠性适度更新信念。例如,在医学研究中,一个小规模研究的惊人发现不会立即推翻基于大规模临床试验的既有共识,而是会被适当地纳入整体证据体系中。实现这一点需要解决规模化的技术挑战——如何在大语言模型的框架内高效执行贝叶斯推理,如何向用户解释复杂的概率更新过程,以及如何为不同领域构建合理的先验分布。

这四个方向的技术突破将从根本上改变深度研究系统的能力边界。正如OpenAI、Gemini和Perplexity的商业实现所展示的,这些进步不是遥远的愿景,而是正在快速成为现实的技术革新。



(文:Founder Park)

发表评论