阿里深夜开源王炸Agent!硬刚OpenAI,性能全面SOTA!

嘿,大家好!这里是一个专注于前沿AI和智能体的频道~

过去半年,AI Agent一直有个让人脑壳疼的问题:为什么开源Agent在解决真正复杂的难题时,总是被OpenAI的DeepResearch按在地上摩擦?

尽管我们看到了WebDancer、R1-Searcher等无数优秀的开源项目,但在OpenAI提出的那个变态难的BrowseComp榜单上,大家的得分基本都是零蛋。这道鸿沟,似乎难以逾越。

昨天,阿里通义开源了他们最新的Web Agent模型——WebSailor

除了开源模型、代码、论文,它用一套完整且可复现的方法论,告诉了所有人:开源Agent,也能实现超人推理,挑战闭源霸权!

开源Agent的问题

首先,我们得搞清楚,为什么以前的开源Agent不行?

论文指出,问题出在训练数据的难度上

之前的训练方法,基本都围绕着两类任务:

  • Level 1: 低不确定性任务,比如单次搜索就能找到答案的问题。
  • Level 2: 路径明确的多跳任务,比如“阿里巴巴现任CEO的母校的第一位中科院院士是谁?”。虽然复杂,但推理路径是固定的、线性的。

然而,现实中,很多挑战,属于 Level 3 :极高的不确定性 + 极其复杂的探索路径

它没有标准答案路径,需要Agent像一个真正的研究员一样,在信息的海洋里不断探索、剪枝、整合、推理。

用Level 1和Level 2的数据去训练模型,然后让它去解决Level 3的问题,这无异于只教了加减法,就让学生去解微积分。结果自然是惨不忍睹。

秘诀一:构造出L3级别的合成数据

那么,如何创造出足够难的Level 3训练数据呢?

WebSailor开源了 SailorFog-QA, 它的生成方式非常巧妙:

  1. 构建复杂知识图谱:从真实世界的网站出发,通过随机游走的方式,构建出一个包含大量实体和复杂关系的高度互联的知识图谱。这保证了问题的源头是真实的,结构是非线性的。
  2. 采样+提问:从这个复杂的图中,随机采样出一个子图,然后基于这个子图生成问题和答案。
  3. 制造难度(关键步骤):在生成问题时,故意对信息进行模糊化处理。这招太绝了。
    • 精确的日期,变成 “21世纪初”
    • 清晰的名字,变成 “一个由F开头的人创立的机构”
    • 具体的数值,变成 “市场份额不到1%”

这种MASK直接把任务的初始不确定性拉满,逼着Agent必须学会比较、推理、综合信息,而不是简单地执行查找。

看上图就知道,SailorFog-QA要求的工具调用次数,分布与BrowseComp-en benchmark(橙线)惊人地相似,并且远超其它数据集。用这种高难度的数据喂出来的模型,实战能力自然强悍。

秘诀二:不学废话,只学精华

有了高质量的QA,下一步就是生成解题过程的轨迹,让模型去学习。

传统方法是找一个更强的专家模型(比如QwQ-32B),让它生成完整的思考和动作轨迹,然后让我们的模型去模仿。但这里有个大坑:专家模型通常非常啰嗦!

它们的思考过程充满了冗长、风格化的“废话”。直接学习这些,不仅会污染我们模型的思考风格,限制其灵活性,更致命的是,在需要几十步工具调用的长任务里,这些废话很快就会把上下文窗口(Context)撑爆!

WebSailor的做法堪称教科书级的取其精华,去其糟粕:

  1. 让专家模型生成完整轨迹,但只保留action-observation序列。这相当于只看大师的操作,不听他的碎碎念。
  2. 然后,再用另一个强大的指令跟随模型,去为每一步成功的动作反向生成一个简洁、凝练、直指目标的“思考”。

这样得到的训练轨迹,既保留了专家解决问题的核心逻辑,又干净利落,没有废话,非常适合长任务的训练。

秘诀三:先冷启动,再用DUPO精调

最后是训练环节。WebSailor采用了“两步走”策略。

第一步:RFT冷启动。

他们发现,直接上RL(强化学习)效果很差,因为任务太难,奖励太稀疏,模型一开始根本不知道往哪走。所以,需要先用少量(仅2k)经过筛选的高质量SFT数据进行“冷启动”,让模型先掌握基本的工具使用和长链条推理的“骨架”。

第二步:DUPO算法强化。

这是他们提出的一个更高效的RL算法——Duplicating Sampling Policy Optimization (DUPO)。相比之前的DAPO等方法,它最大的优势是

在Agent的RL训练中,与环境交互的“rollout”过程非常耗时。DUPO通过一个聪明的技巧——在训练中,优先复制(duplicate)那些表现出多样性(部分rollout成功,部分失败)的样本来填满一个batch,而不是去环境中拉取新样本——极大地提升了训练效率,实现了约2-3倍的加速。

从上图可以看出,RL阶段(绿色部分)对模型的性能,尤其是在BrowseComp这种高难度任务上,带来了巨大的提升。

最后

数据仍然是Agent时代的护城河。

真正的壁垒不在于模型结构,而在于创造高难度、高不确定性训练数据的能力。

随着开源Agent的逐步探索,可以一定程度上降低工程压力。在复杂的Agent任务上,基础模型就能追赶甚至比肩顶级闭源系统。

开源,未来可期!

  • paper: https://arxiv.org/pdf/2507.02592
  • code: https://github.com/Alibaba-NLP/WebAgent
  • model:https://huggingface.co/Alibaba-NLP/WebDancer-32B
  • data: https://huggingface.co/datasets/callanwu/WebWalkerQA

好了,这就是我今天想分享的内容。如果你对构建AI智能体感兴趣,别忘了点赞、关注噢~


(文:PaperAgent)

发表评论