阿里巴巴开源大模型搜索引擎ZeroSearch,开源社区的深度研究框架DeerFlow

关注我,记得标星⭐️不迷路哦~



✨ 1: ZeroSearch

ZeroSearch是一个强化学习框架,无需真实搜索引擎即可提升LLM的搜索能力,降低API成本。

ZeroSearch 是一种新颖的强化学习框架,旨在提升大型语言模型(LLM)的搜索能力,无需与真实的搜索引擎进行交互。它通过以下几个关键步骤实现:

  1. 模拟搜索环境:
    • 首先,使用有监督微调(SFT)将 LLM 转化为一个“检索模块”,使其能够根据给定的查询生成相关和噪声文档,模拟真实搜索结果。
    • 这意味着,LLM 既可以产生有用的信息,也可以产生干扰信息,模拟真实搜索结果中可能出现的情况。
  2. 课程推出机制(Curriculum Rollout):
    • 设计了一种循序渐进的机制,通过暴露 LLM 于难度逐渐增加的检索场景,来逐步激发模型的推理能力。
    • 这意味着,模型首先从简单的检索任务开始训练,然后逐渐过渡到更复杂的任务,从而更好地学习如何利用搜索结果进行推理。
  3. 强化学习训练:
    • 使用强化学习算法(例如GRPO或PPO)来训练LLM,使其能够从模拟的搜索结果中提取有用的信息,并提高回答问题的准确性。

优势:

  • 零 API 成本:
     无需调用真实的搜索引擎,避免了API费用。
  • 性能优越:
     在某些情况下,性能超越了使用真实搜索引擎的模型。
  • 泛化性强:
     适用于各种规模的基础和指令微调 LLM,并支持不同的强化学习算法。

地址:https://github.com/Alibaba-NLP/ZeroSearch

✨ 2: DeerFlow

DeerFlow是社区驱动的深度研究框架,结合语言模型与专业工具,致力于回馈开源社区。(源于开源,回馈开源)

DeerFlow 是一个基于开源社区的深度研究框架,目标是将语言模型与 Web 搜索、爬取和 Python 代码执行等专业工具相结合,从而实现高效的自动化研究流程。它基于 LangGraph 构建了一个模块化的多智能体系统架构,能够进行自动化研究和代码分析。

DeerFlow 的主要功能包括:

  • LLM 集成:
     支持多种模型集成,包括开源模型和 OpenAI 兼容的 API 接口。
  • 工具和 MCP 集成:
     支持 Web 搜索(Tavily, Brave Search 等)、爬取、高级内容提取以及与私有领域知识库的集成。
  • 人机协作:
     支持用户交互式修改研究计划,也支持自动接受研究计划。
  • 内容创作:
     AI 驱动的播客脚本生成和音频合成,自动创建简单的演示文稿。

地址:https://github.com/bytedance/deer-flow

✨ 3: News Agents

News Agents是一个利用Amazon Q、MCP和tmux在终端运行的多Agent并行新闻聚合与摘要系统。


News Agents 是一个实验项目,它利用 Amazon Q CLI 作为代理框架,使用 Model Context Protocol (MCP) 解析 RSS feed 作为工具,并使用 tmux 进行终端分割和监控,最终创建一个在终端中运行的新闻聚合系统。 简单来说,它通过多个并行工作的代理,从 Hacker News, TechCrunch, WSJ 等多个新闻源抓取并总结新闻,最终生成易于阅读的摘要。

News Agents 的工作原理:

  • 主代理 (Main Agent):
     读取 feeds.txt 中的新闻源 URL,将其分成三份,然后在独立的 tmux 窗格中启动三个子代理,监控它们的进度,并在最后收集所有摘要。
  • 子代理 (Sub Agents):
     每个子代理被分配一部分新闻源,它们负责下载内容,解析文章,生成摘要,并将摘要保存到 summaries/ 目录下以新闻源命名的文件中,完成后向主代理报告。
  • 整个过程:
     主代理协调子代理,并行处理新闻源,最后将所有子代理生成的摘要合并成一个总摘要 main-summary.md

地址:https://github.com/eugeneyan/news-agents

✨ 4: n8n Autoscaling System

n8n Autoscaling System是一个基于Docker的n8n工作流自动扩容方案,它根据Redis队列长度动态调整worker容器数量。

n8n 自动伸缩系统是一个基于 Docker 的解决方案,旨在自动调整 n8n 工作流自动化平台的 worker 容器数量,以应对不同的工作负载。它通过监控 Redis 队列的长度来动态调整 worker 容器的数量,无需复杂的 Kubernetes 或其他容器编排平台。它还内置了 Puppeteer 和 Chrome,方便 n8n 代码节点进行高级网页抓取。

核心思想: 根据 Redis 队列中待处理的任务数量,自动增加或减少 n8n worker 容器的数量。

架构: n8n Main 将任务放入 Redis 队列,Autoscaler 监控 Redis 队列的长度,并根据预设的阈值增加或减少 n8n Workers 的数量。Redis Monitor 则负责持续监控 Redis 队列的状态。

主要特点:

  • 动态伸缩:
     根据队列长度自动调整 worker 容器数量。
  • 易于配置:
     通过 .env 文件即可配置伸缩阈值、容器数量限制等。
  • 基于 Docker Compose:
     使用 Docker Compose 进行部署,简化了安装和管理。
  • 集成 Puppeteer 和 Chrome:
     方便进行网页抓取。
  • 监控功能:
     包含 Redis 队列监控服务和 Docker 健康检查,方便排查问题。

地址:https://github.com/conor-is-my-name/n8n-autoscaling

✨ 5: SmartPDF

SmartPDF利用AI(Llama 3.3)快速总结PDF并分章节,基于Together AI。

SmartPDF 是一款利用人工智能技术快速总结和划分 PDF 文档章节的工具。

核心功能:

  • AI驱动的总结:
     使用 Llama 3.3 大语言模型,能够对 PDF 文档进行快速、准确的总结。
  • 章节划分:
     能够智能地将 PDF 文档划分为不同的章节,方便用户浏览和查找信息。

地址:https://github.com/Nutlope/smartpdfs

(文:每日AI新工具)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往