
香港大学近期重磅发布开源项目 AutoAgent,这是由黄超教授实验室开发的创新 AI 框架。它最大的特点是:只要用自然语言就能创建 AI 助手,让人工智能应用开发变得特别简单。
项目开源仅三周就在 Github 上获得了 2.1k 星标。基于 AutoAgent 引擎,黄超团队还打造了一个超强的 AI 研究助手——Auto-Deep-Research。这个通用 AI 智能体性能目前位列全球第三,开源第一。在开源产品中更是排第一。
它的主要功能包括:
-
智能搜索:自动搜索网络信息,整合分析内容
-
自动编程:能处理各种复杂的编程任务 -
数据分析:进行深入的数据挖掘和分析 -
智能报告:生成可视化报告

2025 is the Year of AI Agents
这不是一个随意的预测,而是整个科技界的共识。从英伟达创始人黄仁勋,到 OpenAI 的掌舵人 Sam Altman,从 DeepMind 的天才科学家 Demis Hassabis,再到硅谷顶级投资机构 a16z,他们都指向了同一个未来:AI Agent 即将迎来爆发性增长的拐点。
就像 2022 年是生成式 AI 的元年,ChatGPT 的横空出世彻底改变了我们与 AI 交互的方式。而 2025 年,AI Agent 的普及将掀起一场更具革命性的变革 —— 它不仅能理解和回应,更能主动思考、规划、与环境交互并采取行动,真正成为人类的得力助手。

英伟达创始人

OpenAI CPO

贝尔奖得主,DeepMind 创始人 Demis Hassabis

OpenAI CEO
Sam Altman

Inflection AI 联合创始人 ustafa Suleyman

a16z 最新预测
然而,一个尴尬的现实是:全球仅有 0.03% 的人掌握编程技能。这意味着在 AI Agent 这场技术革命中,99.97% 的人都可能被排除在外。我们真正需要的,不是让少数精英独享 AI Agent 带来的红利,而是让每个人都能够创造和驾驭属于自己的 AI 助手。
在这个重要的历史节点,我们推出了 AutoAgent 框架。这不仅仅是另一个开发工具,而是一次让 AI Agent 创造门槛从“专业编程”降低到“日常对话”的革命性尝试。它内置了开箱即用的 Auto-Deep-Research 多智能体系统,这是一个在 General AI Assistant benchmark GAIA 评测中取得总体第三、开源方案第一的顶尖研究助手。
基于 Claude-3.5-sonnet 构建,支持 Deepseek、Huggingface 等多种模型,它不仅是前三名中最经济实惠的方案,更让每个人都能轻松开启深度研究之旅。得益于其突破性的自我发展架构和智能向量数据库,AutoAgent 不仅能让用户通过自然语言轻松创建各类工具和工作流,更能实现真正的零代码开发,打造专属于你的 AI 助手。

https://arxiv.org/abs/2502.05957
现在让我们进一步看看,Auto-Deep-Research 是怎么实现的吧!


惊艳一瞥:让 AI 成为你的金融分析师
帮我分析苹果和微软的 10-K 财报,结合最新市场动态,做一份量化分析报告,最好能加上数据可视化。
在演示视频中,我们可以看到三个窗口同时运行:终端界面(左侧)显示 Auto-Deep-Research 的思考和规划过程;文件目录(右上)展示生成的分析文档;浏览器窗口(右下)则在收集最新的市场资讯。
从文档解析、网络搜索、到代码编写、数据可视化,整个过程自动化完成,无需人工干预。在约 10 分钟内,系统生成了一份完整的分析报告——这种效率大大提高了财务分析的工作效率。
这个演示展示了 AI 如何处理复杂任务,让人类可以从繁琐的数据处理中解放出来,专注于更具创造性的工作。



如图所示,AutoAgent 的设计灵感来自现代操作系统,旨在打造一个全自动的 AI 助手操作系统。就像 Windows 或 MacOS 为电脑提供了完整的运行环境,AutoAgent 为 AI 助手们提供了一个强大而优雅的运行平台。
这个平台由四大核心模块构成,它们默契配合,让用户仅通过自然语言就能创造和管理各类 AI 助手:
-
开箱即用的开源最强 Deep Research 模式(Agentic System Utilities),为用户提供了顶尖的复杂任务分析和解决能力。 -
基于大语言模型的行动引擎(LLM-powered Actionable Engine)则是整个系统的’大脑’,负责理解用户需求并协调多个AI助手的合作 -
自管理文件系统(Self-Managing File System)能智能处理和组织各类多模态数据,让 AI 助手得心应手地处理文本、图像等不同类型的信息 -
零代码的 Agent 定制化功能(Self-Play Agent Customization)让每个人都能轻松打造专属 AI 助手和工作流程,就像在和AI对话一样简单
这些模块的完美配合,让 AutoAgent 成为了一个真正全能的 AI 助手平台,能够适应从学术研究到商业分析等各类场景的需求。
AutoAgent 采用了一个结构化的多智能体架构,使其能够系统化地处理各类复杂任务。从网页浏览、信息检索到数据分析、代码执行,每个功能领域都有专门的智能体负责。
这个智能体系统的核心是编排智能体(Orchestrator Agent)。它作为中央协调者,接收用户需求后,分析任务要点,将其分解为子任务,并分配给相应的专业智能体。通过高效的 handoff 机制,各智能体协同工作直至完成整个任务。
网页智能体(Web Agent)提供了一套全面的网络任务处理工具集。它能够执行从通用网络搜索到文件下载的各类网络任务,通过 10 个高级操作工具(如 click、web_search、visit_url 等)实现精准的网页交互。系统基于 BrowserGym 构建了专业的浏览器环境,将底层的代码驱动行为抽象为高级工具,显著提升了工具定义的扩展性。
代码智能体(Coding Agent)是一个综合性的代码执行解决方案,专门处理从数据分析、计算到机器学习、自动化和系统管理等各类代码驱动的任务。它包含了 11 个核心工具,涵盖代码脚本创建、Python 代码执行、指令实现和目录结构管理等关键功能。
代码智能体运行在交互式终端环境中,所有代码相关工具的执行结果都通过终端输出返回。当输出超出显示容量时,终端会以分页形式呈现,智能体可以通过 terminal_page_up、terminal_page_down 和 terminal_page_to 等命令自如地浏览内容,有效解决了大语言模型上下文长度的限制问题。
本地文件智能体(Local File Agent)则专注于多模态数据的统一处理和分析。它支持多种文件格式的转换和处理,包括文本文档(.doc、.pdf、.txt、.ppt)、视频文件(.mp4、.mov)、音频文件(.wav、.mp3)以及电子表格(.csv、.xlsx)等。
通过统一的工具集,它能够将各类文件转换为 Markdown 格式,并利用交互式 Markdown 浏览器进行高效分析,有效突破了上下文长度的限制。

基于大语言模型的行动引擎(LLM-powered Actionable Engine)
基于大语言模型的行动引擎是 AutoAgent 的核心处理单元,负责理解自然语言、生成执行计划并协调各智能体任务。系统采用 LiteLLM 实现了标准化的 LLM 调用接口,支持来自不同供应商的 100 多个模型,确保系统协同运行。
AutoAgent 的文件系统本质上是一个向量数据库,专门设计用于支持大语言模型的检索和理解。系统支持用户上传任意格式的文本文件(如 .pdf、.doc、.txt)或包含文本文件的压缩包和文件夹。
通过 save_raw_docs_to_vector_db 等工具,系统能自动将这些文件转换为统一的文本格式,并存储在用户定义的向量数据库集合中。借助 query_db 和 answer_query 等工具,智能体能够自主管理数据库内存,实现高效精准的信息检索和生成。

零代码的 Agent 定制化功能(Self-Play Agent Customization)
构建高效的多智能体系统通常需要专业领域知识,比如金融法规或医疗协议等专业知识。为了让普通用户也能轻松构建复杂系统,AutoAgent 提供了强大的智能体生成能力。用户只需提供智能体名称和简单的功能描述,系统就能自动完成创建过程。
系统首先通过专业的分析智能体评估现有工具和资源,深入分析用户需求。随后,工具编辑智能体开始发挥作用:它可以无缝集成 LangChain、RapidAPI 和 Hugging Face 等第三方 API,目前已支持 8 类 145 个 RapidAPI 接口和 9 类 Hugging Face 模型。
更重要的是,它能自动生成工具代码、设计测试用例并验证功能,遇到问题时还会自动调试直到成功。
当用户对多智能体系统的工作流程有特定要求时,系统采用了创新的事件驱动方法,突破了传统图方法在工作流生成中对图论原则的严格依赖。通过将智能体任务建模为事件,并利用事件监听和触发机制,实现了更灵活的智能体协作。
工作流的构建过程本身就是一个精心设计的多智能体协作:工作流表单智能体负责分析需求并设计事件逻辑,生成结构化的 XML 代码;强大的错误检测机制确保生成的工作流严格符合系统约束;最后,工作流编辑智能体负责创建所需的新智能体、构建工作流并执行任务。

AutoAgent 是一个开源的 AI 助手操作系统,旨在降低创建 AI 助手的技术门槛。欢迎访问我们的 GitHub 仓库,为项目点星并加入开源社区。您的参与将有助于项目持续改进,同时促进 AI 技术的普及应用,使更多用户能够利用这一技术。期待与开发者和用户共同推进 AI 助手技术的发展。


(文:PaperWeekly)