颠覆谷歌搜索API,成本降至88%,阿里开源RL框架ZeroSearch,重新定义AI搜索!

ZeroSearch 不是让搜索消失,而是让搜索真正“融入”智能本身。


整理| 梦依丹
出品丨AI 科技大本营(ID:rgznai100)
仅需 70.8 美元,在 4 块 A100 GPU 上运行 140亿参数模型,你就能获得媲美甚至超越谷歌搜索的强大 AI 搜索能力!
近日,阿里巴巴通义团队开源了一套全新的解决方案——ZeroSearch,这是一款由大模型驱动的生成式搜索引擎框架,训练过程无需调用任何外部搜索接口,完全“自给自足”,实现了低成本,高性能的检索能力构建。
无需搜索引擎,用强化学习“教会”大模型搜索能力?

传统搜索引擎的调用,往往意味着不可控的文档质量与高昂的 API 成本。为了解决这些问题,ZeroSearch 引入了一种全新的强化学习框架——在不与真实搜索引擎交互的前提下训练出“搜索能力”
ZeroSearch 的思路是先用轻量级的监督微调,将大模型转化为一个能根据查询生成“相关”与“干扰”文档的检索模块;再通过“逐步降低文档质量”的课程式训练策略,挑战模型的推理和检索能力,从而实现更稳健的搜索学习路径。
不依赖搜索引擎的 PPO 和 GRPO 训练演示
其做法是:
  • 先通过轻量级的监督微调将大语言模型转化为一个检索模块,该模块能够在接收到查询后生成相关文档与噪声文档
  • 其次,他们提出了无需搜索引擎的强化学习,在强化学习训练期间,他们引入基于课程学习的 rollout 策略,逐步降低生成文档的质量,通过将模型暴露于越来越具挑战性的检索场景中,激发其推理能力。
    优化目标如下:

其中,是待优化的策略模型,是参考模型,是奖励函数,是模拟搜索引擎的大语言模型,其参数在训练过程中保持不变。

在整个训练过程中,模型不再调用真实搜索引擎,而是由模拟引擎直接生成与查询相关或无关的文档,用以模拟搜索结果。

成本降至 88%,效果超过 Google 等真实搜索引擎

大量实验证明,ZeroSearch 能有效激发大语言模型的搜索能力(使用 3B 模型作为检索模块)。令人惊讶的是,ZeroSearch 在多个实验场景中实现了 80%-90% 的训练成本降低,为 AI 搜索训练提供了一种真正低成本、高性能的新路径。
ZeroSearch 在多个公开问答数据集(NQ、HotpotQA、TriviaQA 等)上的实验表明:
  • ZeroSearch 在 7 个任务中均超过或持平于使用真实搜索引擎训练的模型;
  • 使用 7B 参数模型的检索模块已可与谷歌搜索媲美,14B 参数版本甚至超越谷歌搜索结果质量;
  • 更令人震撼的是,ZeroSearch 的训练成本仅为传统方法的 12%;
  • 通过 SerpAPI 使用 Google 搜索进行大约 64,000 次查询的训练,成本约为 586 美元;而在四块 A100 GPU 上,使用 14B 参数的模拟大模型进行搜索训练,成本仅为 70.80 美元,成本降低高达 88%。
  • ZeroSearch 在强化学习中可广泛兼容各类 LLM,包括基础版与指令微调版,如 Qwen 2.5 与 LLaMA 3.2,显示出极强的可泛化性和扩展能力。
目前,ZeroSearch 研究人员已在 GitHub 和 Hugging Face 上公开了他们的代码、数据集和预训练模型,以便其他研究人员和公司能够应用该方法。
感兴趣的朋友可访问以下链接:
  • 论文地址:https://arxiv.org/abs/2505.04588
  • 开源地址:https://github.com/Alibaba-nlp/ZeroSearch
  • Huggingface:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0

(文:AI科技大本营)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往