OpenAI Deep Research被huggingface 24小时复现开源了,冲~

自OpenAI发布Deep Research(一种使用推理来综合大量在线信息并完成多步骤研究任务的AI Agent)之后开源社区已经迎来一大波复现了,PaperAgent进行了梳理:
1.2k星 https://github.com/jina-ai/node-DeepResearch

825 https://github.com/mshumer/OpenDeepResearcher

658 https://github.com/nickscamara/open-deep-research

529 https://github.com/btahir/open-deep-research

499 https://github.com/dzhng/deep-research

182 https://github.com/HarshJ23/Deeper-Seeker
这里重点介绍下huggingface的24小时复现项目: open-Deep-Research

open-Deep-Research是一个完全开放的智能Agent,能够:自主浏览网页、滚动和搜索页面、下载和操作文件、对数据进行计算……

在GAIA基准测试中,Deep Research在验证集上的准确率为67%。 

➡️ open Deep Research的准确率是55%(由o1提供支持),但它已经是:

  • 提交的解决方案中最佳的pass@1方案

  • 最佳的开源方案

体验:https://m-ric-open-deep-research.hf.space/

使用 CodeAgent
将要解决的第一个对传统 AI Agent系统的改进是使用“Code Agent”。让Agent用代码表达其动作有几个优点,但最值得注意的是,代码是专门为表达复杂的动作序列而设计的。

这凸显了使用代码的几个优点:
  • 代码操作比JSON简洁得多
    • 需要运行 4 个包含 5 个连续操作的并行流?在 JSON 中,您需要生成 20 个 JSON blob,每个都在其单独的步骤中;在 Code 中只需 1 个步骤。
    • 论文显示,平均而言,代码操作所需的步骤比 JSON 少 30%,这相当于生成的token也减少了 30%。由于 LLM 调用通常是Agent系统的度量成本,这意味着Agent系统运行成本降低了约 30%。
  • 代码允许重复使用来自公共库的工具
  • 基准测试中表现更佳,原因有二:
    • 更直观的表达动作的方式
    • LLM在训练中广泛接触代码
制造合适的工具
现在需要为Agent提供正确的工具集。
  • 网络浏览器。虽然需要像Operator这样的功能齐全的网络浏览器交互才能实现全部性能,但目前我们从一个非常简单的基于文本的网络浏览器开始进行第一个概念验证。
  • 一个简单的文本检查器,能够读取一堆文本文件格式。
这些工具取自微软研究院出色的Magentic-One Agent!
以下是可以真正提高这些工具性能的改进的简短路线图
  • 扩展可读取的文件格式的数量
  • 提出更细粒度的文件处理
  • 用基于视觉的浏览器取代网络浏览器
结果
在24 小时以上的复制冲刺中,已经看到 GAIA 上的Agent性能稳步提升!
已经从之前采用开放框架的 SoTA(Magentic-One 的准确率约为 46%)迅速上升到目前验证集上的 54% 的准确率。
性能的提升主要归功于让Agent用代码编写操作!事实上,当切换到用 JSON 而不是代码编写操作的标准Agent时,相同设置的性能在验证集上会立即下降到平均33%。
https://huggingface.co/blog/open-deep-researchhttps://github.com/huggingface/smolagents/tree/gaia-submission-r1/examples/open_deep_research

(文:PaperAgent)

欢迎分享

发表评论