一句话全自动创建AI智能体,港大AutoAgent打造开源最强Deep Research

香港大学近期重磅发布开源项目 AutoAgent,这是由黄超教授实验室开发的创新 AI 框架。它最大的特点是:只要用自然语言就能创建 AI 助手,让人工智能应用开发变得特别简单。

项目开源仅三周就在 Github 上获得了 2.1k 星标。基于 AutoAgent 引擎,黄超团队还打造了一个超强的 AI 研究助手——Auto-Deep-Research。这个通用 AI 智能体性能目前位列全球第三,开源第一。在开源产品中更是排第一。

它的主要功能包括:

  • 智能搜索:自动搜索网络信息,整合分析内容

  • 自动编程:能处理各种复杂的编程任务
  • 数据分析:进行深入的数据挖掘和分析
  • 智能报告:生成可视化报告



导读

2025 is the Year of AI Agents


这不是一个随意的预测,而是整个科技界的共识。从英伟达创始人黄仁勋,到 OpenAI 的掌舵人 Sam Altman,从 DeepMind 的天才科学家 Demis Hassabis,再到硅谷顶级投资机构 a16z,他们都指向了同一个未来:AI Agent 即将迎来爆发性增长的拐点。

就像 2022 年是生成式 AI 的元年,ChatGPT 的横空出世彻底改变了我们与 AI 交互的方式。而 2025 年,AI Agent 的普及将掀起一场更具革命性的变革 —— 它不仅能理解和回应,更能主动思考、规划、与环境交互并采取行动,真正成为人类的得力助手。

英伟达创始人


OpenAI CPO


贝尔奖得主,DeepMind 创始人 Demis Hassabis

OpenAI CEO

Sam Altman

Inflection AI 联合创始人 ustafa Suleyman

a16z 最新预测


然而,一个尴尬的现实是:全球仅有 0.03% 的人掌握编程技能。这意味着在 AI Agent 这场技术革命中,99.97% 的人都可能被排除在外。我们真正需要的,不是让少数精英独享 AI Agent 带来的红利,而是让每个人都能够创造和驾驭属于自己的 AI 助手。

在这个重要的历史节点,我们推出了 AutoAgent 框架。这不仅仅是另一个开发工具,而是一次让 AI Agent 创造门槛从“专业编程”降低到“日常对话”的革命性尝试。它内置了开箱即用的 Auto-Deep-Research 多智能体系统,这是一个在 General AI Assistant benchmark GAIA 评测中取得总体第三、开源方案第一的顶尖研究助手。

基于 Claude-3.5-sonnet 构建,支持 Deepseek、Huggingface 等多种模型,它不仅是前三名中最经济实惠的方案,更让每个人都能轻松开启深度研究之旅。得益于其突破性的自我发展架构和智能向量数据库,AutoAgent 不仅能让用户通过自然语言轻松创建各类工具和工作流,更能实现真正的零代码开发,打造专属于你的 AI 助手。

我们也欢迎所有有兴趣的开发者加入我们的社群一起探索,在这个 AI Agent 即将爆发的前夜,AutoAgent 将如何重新定义人机协作的未来…

自研框架 AutoAgent:
https://github.com/HKUDS/AutoAgent
Auto-Deep-Research:
https://github.com/HKUDS/Auto-Deep-Research
论文链接:

https://arxiv.org/abs/2502.05957

现在让我们进一步看看,Auto-Deep-Research 是怎么实现的吧!



惊艳一瞥:让 AI 成为你的金融分析师

帮我分析苹果和微软的 10-K 财报,结合最新市场动态,做一份量化分析报告,最好能加上数据可视化。


通过这个简单指令,我们可以看到 Auto-Deep-Research 的实际应用能力。面对两份总计超过 200 页的 PDF 文档,这个多智能体系统展现出了高效的处理能力。

在演示视频中,我们可以看到三个窗口同时运行:终端界面(左侧)显示 Auto-Deep-Research 的思考和规划过程;文件目录(右上)展示生成的分析文档;浏览器窗口(右下)则在收集最新的市场资讯。

从文档解析、网络搜索、到代码编写、数据可视化,整个过程自动化完成,无需人工干预。在约 10 分钟内,系统生成了一份完整的分析报告——这种效率大大提高了财务分析的工作效率。

这个演示展示了 AI 如何处理复杂任务,让人类可以从繁琐的数据处理中解放出来,专注于更具创造性的工作。

agent 生成的 report 和 figure 如下所示:


深入剖析 AutoAgent

如图所示,AutoAgent 的设计灵感来自现代操作系统,旨在打造一个全自动的 AI 助手操作系统。就像 Windows 或 MacOS 为电脑提供了完整的运行环境,AutoAgent 为 AI 助手们提供了一个强大而优雅的运行平台。

这个平台由四大核心模块构成,它们默契配合,让用户仅通过自然语言就能创造和管理各类 AI 助手:

  • 开箱即用的开源最强 Deep Research 模式(Agentic System Utilities),为用户提供了顶尖的复杂任务分析和解决能力。
  • 基于大语言模型的行动引擎(LLM-powered Actionable Engine)则是整个系统的’大脑’,负责理解用户需求并协调多个AI助手的合作
  • 自管理文件系统(Self-Managing File System)能智能处理和组织各类多模态数据,让 AI 助手得心应手地处理文本、图像等不同类型的信息
  • 零代码的 Agent 定制化功能(Self-Play Agent Customization)让每个人都能轻松打造专属 AI 助手和工作流程,就像在和AI对话一样简单

这些模块的完美配合,让 AutoAgent 成为了一个真正全能的 AI 助手平台,能够适应从学术研究到商业分析等各类场景的需求。

开源最强 Auto-Deep-Research(Agentic System Utilities)

AutoAgent 采用了一个结构化的多智能体架构,使其能够系统化地处理各类复杂任务。从网页浏览、信息检索到数据分析、代码执行,每个功能领域都有专门的智能体负责。

这个智能体系统的核心是编排智能体(Orchestrator Agent)。它作为中央协调者,接收用户需求后,分析任务要点,将其分解为子任务,并分配给相应的专业智能体。通过高效的 handoff 机制,各智能体协同工作直至完成整个任务。

网页智能体(Web Agent)提供了一套全面的网络任务处理工具集。它能够执行从通用网络搜索到文件下载的各类网络任务,通过 10 个高级操作工具(如 click、web_search、visit_url 等)实现精准的网页交互。系统基于 BrowserGym 构建了专业的浏览器环境,将底层的代码驱动行为抽象为高级工具,显著提升了工具定义的扩展性。

代码智能体(Coding Agent)是一个综合性的代码执行解决方案,专门处理从数据分析、计算到机器学习、自动化和系统管理等各类代码驱动的任务。它包含了 11 个核心工具,涵盖代码脚本创建、Python 代码执行、指令实现和目录结构管理等关键功能。

代码智能体运行在交互式终端环境中,所有代码相关工具的执行结果都通过终端输出返回。当输出超出显示容量时,终端会以分页形式呈现,智能体可以通过 terminal_page_up、terminal_page_down 和 terminal_page_to 等命令自如地浏览内容,有效解决了大语言模型上下文长度的限制问题。

本地文件智能体(Local File Agent)则专注于多模态数据的统一处理和分析。它支持多种文件格式的转换和处理,包括文本文档(.doc、.pdf、.txt、.ppt)、视频文件(.mp4、.mov)、音频文件(.wav、.mp3)以及电子表格(.csv、.xlsx)等。

通过统一的工具集,它能够将各类文件转换为 Markdown 格式,并利用交互式 Markdown 浏览器进行高效分析,有效突破了上下文长度的限制。

这套精心设计的架构在 GAIA benchmark 评测中展现出了卓越的性能:以总体第三、开源方案第一的成绩,与 OpenAI 等商业巨头的闭源方案并驾齐驱。
特别值得一提的是,在前三名中,我们是唯一一个基于 Claude-3.5-sonnet 的方案,不仅达到了顶尖性能,还实现了最优的成本效益。同时,系统的开放性使其能够无缝对接 Deepseek-R1 等多种模型,甚至支持本地开源模型部署,让高性能的 Deep Research 真正走入大众视野。

基于大语言模型的行动引擎(LLM-powered Actionable Engine)

基于大语言模型的行动引擎是 AutoAgent 的核心处理单元,负责理解自然语言、生成执行计划并协调各智能体任务。系统采用 LiteLLM 实现了标准化的 LLM 调用接口,支持来自不同供应商的 100 多个模型,确保系统协同运行。

在生成可执行动作方面,系统设计了两种互补范式:直接工具使用范式针对支持工具调用的商业语言模型,能够直接生成下一步执行工具;转换式工具使用范式则将工具使用转化为结构化的 XML 代码生成任务(如 <function=function_name> <parameter=parameter_1>value_1 … ),既提升了商业模型性能,也为开源模型集成提供了灵活性。
自管理文件系统(Self-Managing File System)

AutoAgent 的文件系统本质上是一个向量数据库,专门设计用于支持大语言模型的检索和理解。系统支持用户上传任意格式的文本文件(如 .pdf、.doc、.txt)或包含文本文件的压缩包和文件夹。

通过 save_raw_docs_to_vector_db 等工具,系统能自动将这些文件转换为统一的文本格式,并存储在用户定义的向量数据库集合中。借助 query_db 和 answer_query 等工具,智能体能够自主管理数据库内存,实现高效精准的信息检索和生成。

在 MultiHop-RAG 基准测试中,基于这一原生自管理文件系统构建的 Agentic-RAG 展现出了卓越性能:准确率达到 73.51%,显著超越了其他基线方法,包括知名的 LangChain 框架。
这一成绩充分证明了我们的系统在处理复杂的多跳检索和生成任务时具备更强的灵活性和适应性,不依赖预定义的工作流程,能够在检索过程中动态编排最优路径。

零代码的 Agent 定制化功能(Self-Play Agent Customization)

AutoAgent 设计了一个代码驱动的自编程智能体框架,通过实现约束机制、错误处理和定制化工作流,实现了可控的代码生成,让用户能够轻松定制工具和智能体,或构建多智能体系统。系统支持两种主要模式:无工作流智能体创建和基于工作流的智能体创建。
无工作流智能体创建

构建高效的多智能体系统通常需要专业领域知识,比如金融法规或医疗协议等专业知识。为了让普通用户也能轻松构建复杂系统,AutoAgent 提供了强大的智能体生成能力。用户只需提供智能体名称和简单的功能描述,系统就能自动完成创建过程。

系统首先通过专业的分析智能体评估现有工具和资源,深入分析用户需求。随后,工具编辑智能体开始发挥作用:它可以无缝集成 LangChain、RapidAPI 和 Hugging Face 等第三方 API,目前已支持 8 类 145 个 RapidAPI 接口和 9 类 Hugging Face 模型。

更重要的是,它能自动生成工具代码、设计测试用例并验证功能,遇到问题时还会自动调试直到成功。

在智能体创建阶段,系统会自动识别是否需要多个智能体协作。如果需要,它会通过 create_orchestrator_agent 工具生成一个编排智能体,遵循 Orchestrator-Workers 设计模式,确保多个智能体之间的有效协调。
基于工作流的智能体创建

当用户对多智能体系统的工作流程有特定要求时,系统采用了创新的事件驱动方法,突破了传统图方法在工作流生成中对图论原则的严格依赖。通过将智能体任务建模为事件,并利用事件监听和触发机制,实现了更灵活的智能体协作。

工作流的构建过程本身就是一个精心设计的多智能体协作:工作流表单智能体负责分析需求并设计事件逻辑,生成结构化的 XML 代码;强大的错误检测机制确保生成的工作流严格符合系统约束;最后,工作流编辑智能体负责创建所需的新智能体、构建工作流并执行任务。

这种设计不仅实现了真正的零代码开发,更通过严谨的框架设计和灵活的事件机制,确保了系统的可靠性和扩展性。



结语

AutoAgent 是一个开源的 AI 助手操作系统,旨在降低创建 AI 助手的技术门槛。欢迎访问我们的 GitHub 仓库,为项目点星并加入开源社区。您的参与将有助于项目持续改进,同时促进 AI 技术的普及应用,使更多用户能够利用这一技术。期待与开发者和用户共同推进 AI 助手技术的发展。

GitHub 地址:
https://github.com/HKUDS/AutoAgent



研究团队
本项研究由黄超老师带领的港大数据智能实验室(https://sites.google.com/view/chaoh/group-join-us)的团队成员带来。港大数据智能实验室长期耕耘于数据科学,大语言模型领域,由诸如 LightRAG,GraphGPT 等诸多高星开源项目。欢迎大家来 Github 进一步探索:
https://github.com/HKUDS


(文:PaperWeekly)

欢迎分享

发表评论