阿里WebWalker：一个提升RAG多维信息检索能力的Multi-Agent框架

检索增强生成（RAG）在开放域问答任务中表现出色。然而，传统搜索引擎可能会检索浅层内容，限制了大型语言模型（LLM）处理复杂、多层次信息的能力。为了解决这个问题，我们引入了WebWalkerQA，一个旨在评估LLM执行网页遍历能力的基准。它评估LLM系统性地遍历网站子页面以获取对应信息的能力。同时我们提出了WebWalker，一个通过explorer-critic范式模拟人类网页导航的multi-agent框架。广泛的实验结果表明，WebWalkerQA具有挑战性，证明了结合WebWalker的RAG在实际场景中通过横向搜索和纵向页面挖掘集成的有效性。

RAG场景下，搜索引擎只是对query的横向网页搜索，缺少对搜索到的网页进行纵向的深度深挖！

动机

大型语言模型（LLM）通常处于知识固定状态（无法实时更新）。尽管使用检索增强生成（RAG）可以获取最新信息，但传统搜索引擎（如谷歌、百度等）的横向搜索方式限制了对信息的深层挖掘能力，无法像人类一样通过逐步点击等操作获取更多细节，从而更“聪明”地获取所需信息。因此，作者提出了一个新任务——Web Traversal，旨在给定与查询相关的初始网站，系统地遍历网页以揭露隐藏在其中的信息。

WebWalkerQA和WebWalker

[Dataset] WebWalkerQA：根据网站的URL树，通过四个阶段，构建单源/多源的easy、medium、hard难度的QA对，涵盖四种常见官网来源及中英两种语言。

[Method] WebWalker：采用多代理框架，由一个探测代理（explorer agent）和一个裁判代理（critic agent）组成。探测代理基于ReAct，遵循思考-行动-观察范式，模拟人在网页中点击按钮跳转页面的过程；裁判代理则负责存储搜索过程中的信息，在探测代理点击的过程中，保存对查询有帮助的信息，并判断何时能够停止探测代理的探索。

实验

Table3展示了不同模型作为backbone，WebWalkerQA使用不同方法的代理性能结果。可以发现即使是最好的模型gpt-4o在这个任务也表现较差，任务中可能涉及到多跳推理和对文本的推理的能力。

Table4显示了在close book和目前较好的开源及商用RAG系统上的性能。在close book 设置下正确率只有10%，因为WebwalkerQA具有高时效性，而LLM具有知识的cutoff，这与第一个limitation呼应。在源及商用RAG系统上，最好的效果也只有40，验证了第二个limitation，传统搜索引擎可能会检索浅层内容，即使很多闭源的RAG系统使用了query改写或者agentic的操作，但是还是没有一步到位定位到的需要的web information source。

还包括一系列分析实验，如下：

值得注意的是，webwalker中的memory对于回答query是非常重要的。如果rag链路中的搜索引擎可以当作对query进行横向搜索，webwalker是对页面的纵向深度探索，这是完全可以互补的。

因此可以把webwalker中的memory拼接到rag链路上，这种横向和纵向整合表现出色，在所有类别和难度的数据集上效果均有提升，证明了垂直探索页面对于提升RAG性能的潜力。这是对RAG二维探索的首次尝试！

此外，对webwalker 的挖掘点击次数进行scale up，看是否能得到更好的、更多的memory信息，随着挖掘点击次数的增大，不仅在webwalker上有较大提升，把memory加入到rag系统之后，性能也随之提升。这给rag系统进行test-time的拓展提供了新的角度。

💡 WebWalker的设计让人联想到pair programming（对编程），即两人协作，一个写代码，一个检查bug。探测代理和裁判代理的功能其实类似于这种协作。

💡 文章最后提出了三项发现，首次提出了RAG二维探索的scaling潜力，探讨如何更“聪明”地进行横向和垂直两个方向的探索（test-time compute）。

作者介绍：本文主要作者来自通义实验室和东南大学。通讯作者是通义实验室蒋勇和东南大学周德宇。第一作者吴家隆，东南大学硕士二年级，主要研究方向是Agent和Efficient NLP，该工作在阿里巴巴通义实验室RAG团队科研实习完成

（文：PaperAgent）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

《阿里WebWalker：一个提升RAG多维信息检索能力的Multi-Agent框架》有1条评论

发表评论取消回复

动机

WebWalkerQA和WebWalker

实验

《阿里WebWalker：一个提升RAG多维信息检索能力的Multi-Agent框架》有1条评论

发表评论 取消回复

发表评论取消回复