突破传统检索瓶颈!阿里通义实验室发布 WebDancer,开启多步推理智能体新范式!

 

在信息爆炸的数字时代,如何从海量网络数据中高效获取有价值的信息,成为互联网技术领域的一道难题。

传统搜索引擎如同只能单次射击的猎枪,面对需要抽丝剥茧、层层深入的复杂问题时,往往显得力不从心。

而近期,阿里巴巴通义实验室带来的 WebDancer,如同一位训练有素的 “信息侦探”,以原生的 Agentic 能力,重新定义了复杂信息检索的游戏规则。

WebDancer 催生背景

传统搜索引擎处理任务只能返回零散的网页链接,却无法将这些碎片化信息串联成完整的逻辑链条。你需要手动在数十个网页间跳转,反复比对数据、验证逻辑,最终才能拼凑出答案的轮廓。

这种 “多步推理 + 跨页验证” 的需求,暴露了传统检索技术的核心短板:缺乏动态决策能力。

而随着大模型技术的发展,虽然 LLMs 和 LRMs 展现出一定的推理潜力,但直接应用于复杂任务时,要么受限于提示工程的精细度,要么困于简单训练数据的覆盖范围。

通义实验室的研究者意识到,解决这一问题需要从底层重构智能体的训练逻辑。于是,WebDancer— 一个基于 ReAct 框架的原生信息检索 Agentic Model应运而生。

它的目标很明确:让机器学会像人类研究员一样,在网络信息的迷宫中自主导航、思考和决策,完成类 DeepResearch 的复杂任务。

核心技术

WebDancer 的构建过程可以分为四个关键阶段:浏览数据构建、轨迹采样、监督微调以及强化学习。

(一)浏览数据构建

要让智能体学会复杂推理,首先需要为其提供高质量的 “思维训练素材”。WebDancer 采用两种创新方法合成数据集:

① CRAWLQA:模拟人类的 “知识勘探”

从 arxiv、github、wiki 等专业网站出发,WebDancer 像一位不知疲倦的爬行者,递归浏览网页,收集从主页面到子页面的层级化信息。

随后,借助 GPT-4o 的强大生成能力,这些信息被转化为涵盖计数问题、多跳问题、交集问题等多种类型的问答对。

② E2HQA:从简单到复杂的 “思维升级”

研究者发现,人类解决复杂问题往往遵循 “循序渐进” 的逻辑。E2HQA 正是基于这一洞察,从简单问答对出发,通过逐步引入技术细节、扩展问题维度,将单步问题转化为多步推理任务。

(二)轨迹采样

有了优质数据,如何让智能体学会 “行动策略”?WebDancer 采用拒绝采样机制,结合两种思考模式编织 “决策地图”:

① 短链思考:快速定位关键路径

利用AI大模型(如:GPT-4o)的强推理能力,直接生成 ReAct 轨迹,如同为智能体提供 “标准答案解析”。这种方式能快速获取高质量的短路径决策样本,让智能体掌握基础的 “问题 – 动作” 映射逻辑。

② 长链思考:模拟人类的 “试错探索”

通过推理模型(如:QwQ-Plus),逐步输入历史动作和观察结果,让智能体自主决定下一步行动。这一过程如同让新手研究员独立设计实验,允许其在试错中积累经验。

通过多次拒绝采样,研究者筛选出连贯、高效的长链轨迹,确保智能体学会应对复杂场景的 “迂回策略”。

(三)监督微调

在监督微调阶段,WebDancer 开始学习 “职业研究员” 的工作范式。

通过将采样得到的轨迹输入模型,智能体逐渐掌握 “推理 – 行动 – 再推理” 的循环逻辑:何时需要调用搜索工具获取新信息?何时应该基于已有知识进行归纳?这种 “边思考边行动” 的节奏,正是解决多步问题的核心能力。

(四)强化学习

如果说监督微调是 “理论学习”,那么强化学习就是 “实战演练”。

WebDancer 采用 DAPO 算法,通过动态采样机制激活那些在监督阶段未被充分利用的问答对。

不仅提高了数据利用效率,更让智能体在多工具协同、长程决策中展现出更强的鲁棒性。

实验分析

在GAIA和WebWalkerQA两个高难度基准测试中,对 WebDancer 进行了实战检验:

  • • 在 GAIA 基准中,WebDancer 以61.1% 的 Pass@3 分数刷新纪录,远超 Vanilla ReAct。
  • • 在 WebWalkerQA 测试中,其54.6% 的 Pass@3 分数同样领先多数对比模型,尤其在 “Hard” 难度任务中,优势更为显著。

未来展望

WebDancer 的诞生,只是智能体革命的序章。通义实验室的研究者们早已为其规划了更广阔的进化路径:

  • • 工具生态拓展:从基础的搜索和浏览工具,升级为支持浏览器建模、Python 沙盒环境等复杂工具。未来,WebDancer 将能直接执行网页交互、数据抓取、代码运行等操作,完成从信息检索到数据分析的全链条任务。
  • • 任务边界突破:当前聚焦于短答案检索的 WebDancer,将向开放域长文本写作进军。
  • • 泛化能力验证:参与更多跨领域基准测试,从科技领域拓展至人文、财经等场景,验证其在不同知识图谱中的适应性。

写在最后

从搜索引擎到智能体,我们见证的不仅是技术的迭代,更是 “机器辅助人类认知” 的范式升级。

在闭源模型主导 Agentic 能力的当下,WebDancer 的价值不仅在于技术突破,更在于其开源理念带来的范式革新。

未来,随着工具集成的完善和任务边界的拓展,我们有理由期待,这些不知疲倦、逻辑严密的 “数字研究员”,将在科研探索、商业决策、公共事务等领域大显身手,成为人类智慧的延伸,共同解锁更广阔的知识边疆。

正如通义实验室研究者所言:“WebDancer 不是终点,而是起点。它的每一次进化,都是对‘机器如何更懂人类需求’的深入回答。”

在这个信息过载的时代,这样的探索,或许正是我们穿越数据迷雾、抵达真知的关键钥匙。

参考资料:

  •  阿里通义实验室投稿PR
  • • 论文:https://arxiv.org/pdf/2505.22648
  • • GitHub 地址:https://github.com/Alibaba-NLP/WebAgent

 







(文:开源星探)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往