突破传统检索瓶颈！阿里通义实验室发布 WebDancer，开启多步推理智能体新范式!

在信息爆炸的数字时代，如何从海量网络数据中高效获取有价值的信息，成为互联网技术领域的一道难题。

传统搜索引擎如同只能单次射击的猎枪，面对需要抽丝剥茧、层层深入的复杂问题时，往往显得力不从心。

而近期，阿里巴巴通义实验室带来的 WebDancer，如同一位训练有素的 “信息侦探”，以原生的 Agentic 能力，重新定义了复杂信息检索的游戏规则。

WebDancer 催生背景

传统搜索引擎处理任务只能返回零散的网页链接，却无法将这些碎片化信息串联成完整的逻辑链条。你需要手动在数十个网页间跳转，反复比对数据、验证逻辑，最终才能拼凑出答案的轮廓。

这种 “多步推理 + 跨页验证” 的需求，暴露了传统检索技术的核心短板：缺乏动态决策能力。

而随着大模型技术的发展，虽然 LLMs 和 LRMs 展现出一定的推理潜力，但直接应用于复杂任务时，要么受限于提示工程的精细度，要么困于简单训练数据的覆盖范围。

通义实验室的研究者意识到，解决这一问题需要从底层重构智能体的训练逻辑。于是，WebDancer— 一个基于 ReAct 框架的原生信息检索 Agentic Model应运而生。

它的目标很明确：让机器学会像人类研究员一样，在网络信息的迷宫中自主导航、思考和决策，完成类 DeepResearch 的复杂任务。

核心技术

WebDancer 的构建过程可以分为四个关键阶段：浏览数据构建、轨迹采样、监督微调以及强化学习。

（一）浏览数据构建

要让智能体学会复杂推理，首先需要为其提供高质量的 “思维训练素材”。WebDancer 采用两种创新方法合成数据集：

① CRAWLQA：模拟人类的 “知识勘探”

从 arxiv、github、wiki 等专业网站出发，WebDancer 像一位不知疲倦的爬行者，递归浏览网页，收集从主页面到子页面的层级化信息。

随后，借助 GPT-4o 的强大生成能力，这些信息被转化为涵盖计数问题、多跳问题、交集问题等多种类型的问答对。

② E2HQA：从简单到复杂的 “思维升级”

研究者发现，人类解决复杂问题往往遵循 “循序渐进” 的逻辑。E2HQA 正是基于这一洞察，从简单问答对出发，通过逐步引入技术细节、扩展问题维度，将单步问题转化为多步推理任务。

（二）轨迹采样

有了优质数据，如何让智能体学会 “行动策略”？WebDancer 采用拒绝采样机制，结合两种思考模式编织 “决策地图”：

① 短链思考：快速定位关键路径

利用AI大模型（如：GPT-4o）的强推理能力，直接生成 ReAct 轨迹，如同为智能体提供 “标准答案解析”。这种方式能快速获取高质量的短路径决策样本，让智能体掌握基础的 “问题 – 动作” 映射逻辑。

② 长链思考：模拟人类的 “试错探索”

通过推理模型（如：QwQ-Plus），逐步输入历史动作和观察结果，让智能体自主决定下一步行动。这一过程如同让新手研究员独立设计实验，允许其在试错中积累经验。

通过多次拒绝采样，研究者筛选出连贯、高效的长链轨迹，确保智能体学会应对复杂场景的 “迂回策略”。

（三）监督微调

在监督微调阶段，WebDancer 开始学习 “职业研究员” 的工作范式。

通过将采样得到的轨迹输入模型，智能体逐渐掌握 “推理 – 行动 – 再推理” 的循环逻辑：何时需要调用搜索工具获取新信息？何时应该基于已有知识进行归纳？这种 “边思考边行动” 的节奏，正是解决多步问题的核心能力。

（四）强化学习

如果说监督微调是 “理论学习”，那么强化学习就是 “实战演练”。

WebDancer 采用 DAPO 算法，通过动态采样机制激活那些在监督阶段未被充分利用的问答对。

不仅提高了数据利用效率，更让智能体在多工具协同、长程决策中展现出更强的鲁棒性。

实验分析

在GAIA和WebWalkerQA两个高难度基准测试中，对 WebDancer 进行了实战检验：

• 在 GAIA 基准中，WebDancer 以61.1% 的 Pass@3 分数刷新纪录，远超 Vanilla ReAct。
• 在 WebWalkerQA 测试中，其54.6% 的 Pass@3 分数同样领先多数对比模型，尤其在 “Hard” 难度任务中，优势更为显著。

未来展望

WebDancer 的诞生，只是智能体革命的序章。通义实验室的研究者们早已为其规划了更广阔的进化路径：

• 工具生态拓展：从基础的搜索和浏览工具，升级为支持浏览器建模、Python 沙盒环境等复杂工具。未来，WebDancer 将能直接执行网页交互、数据抓取、代码运行等操作，完成从信息检索到数据分析的全链条任务。
• 任务边界突破：当前聚焦于短答案检索的 WebDancer，将向开放域长文本写作进军。
• 泛化能力验证：参与更多跨领域基准测试，从科技领域拓展至人文、财经等场景，验证其在不同知识图谱中的适应性。

写在最后

从搜索引擎到智能体，我们见证的不仅是技术的迭代，更是 “机器辅助人类认知” 的范式升级。

在闭源模型主导 Agentic 能力的当下，WebDancer 的价值不仅在于技术突破，更在于其开源理念带来的范式革新。

未来，随着工具集成的完善和任务边界的拓展，我们有理由期待，这些不知疲倦、逻辑严密的 “数字研究员”，将在科研探索、商业决策、公共事务等领域大显身手，成为人类智慧的延伸，共同解锁更广阔的知识边疆。

正如通义实验室研究者所言：“WebDancer 不是终点，而是起点。它的每一次进化，都是对‘机器如何更懂人类需求’的深入回答。”

在这个信息过载的时代，这样的探索，或许正是我们穿越数据迷雾、抵达真知的关键钥匙。

参考资料：

• 阿里通义实验室投稿PR
• 论文：https://arxiv.org/pdf/2505.22648
• GitHub 地址：https://github.com/Alibaba-NLP/WebAgent

（文：开源星探）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30