ZeroSearch 不是让搜索消失,而是让搜索真正“融入”智能本身。


-
先通过轻量级的监督微调将大语言模型转化为一个检索模块,该模块能够在接收到查询后生成相关文档与噪声文档 -
其次,他们提出了无需搜索引擎的强化学习,在强化学习训练期间,他们引入基于课程学习的 rollout 策略,逐步降低生成文档的质量,通过将模型暴露于越来越具挑战性的检索场景中,激发其推理能力。 优化目标如下:

其中,是待优化的策略模型,
是参考模型,是奖励函数,
是模拟搜索引擎的大语言模型,其参数在训练过程中保持不变。




-
ZeroSearch 在 7 个任务中均超过或持平于使用真实搜索引擎训练的模型; -
使用 7B 参数模型的检索模块已可与谷歌搜索媲美,14B 参数版本甚至超越谷歌搜索结果质量; -
更令人震撼的是,ZeroSearch 的训练成本仅为传统方法的 12%; -
通过 SerpAPI 使用 Google 搜索进行大约 64,000 次查询的训练,成本约为 586 美元;而在四块 A100 GPU 上,使用 14B 参数的模拟大模型进行搜索训练,成本仅为 70.80 美元,成本降低高达 88%。 -
ZeroSearch 在强化学习中可广泛兼容各类 LLM,包括基础版与指令微调版,如 Qwen 2.5 与 LLaMA 3.2,显示出极强的可泛化性和扩展能力。
-
论文地址:https://arxiv.org/abs/2505.04588 -
开源地址:https://github.com/Alibaba-nlp/ZeroSearch -
Huggingface:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0


(文:AI科技大本营)