2025年,AI Agent 爆发之年。
AI Agent,国内有一个很“雅致”的名字:智能体。
关于 AI Agent,OpenAI 首席产品官(CPO)Kevin Weil 给出了这样的定义:能够自主执行任务的系统。

其实 agent 一词在英文中愿意为“代理”,AI Agent,即 AI 代理,意为能够代理你独立自主地执行任务的 AI。这样是不是更好理解了。
OpenAI 自2025年以来已经发布了两款基于 ChatGPT 的 AI Agent:
-
可以代替你操作浏览器,自主执行任务的 Operator:OpenAI正式发布Operator,一款能操作浏览器的AI,打响2025智能体大战第一枪!
-
可以帮助你做深入的研究,整合海量在线信息,生成专业研究报告的 Deep Research:OpenAI的第二个AI Agent:Deep Research完全解读!

遗憾的是,尽管 OpenAI 吹得再响,这两个 AI Agent 并没有在市场上激起特别大的浪花。
反而是来自我国的 Manus AI,火得破了圈。好不好用不知道,但火,那是真火。
OpenAI 急啊,恐怕是急的要跳脚,遂于北京时间3月12日凌晨,突然的、毫无预热的、不符合其风格的举行了一场直播发布会。

整场发布会时长19分钟,发布的内容总结起来就是“3 + 1 + 1”:三个工具(tools);一个新 API(Responses API);一个新 SDK(Agents SDK)。
1. Web Search Tool(联网搜索工具)
大语言模型本身是不能联网搜索的,只能依据其训练数据生成答案。但为什么有的 AI 产品,比如 DeepSeek,就支持联网搜索实时内容,然后回答?
因为联网搜索工具。

联网搜索工具,也就是这次发布的 Web Search Tool,能够提供给模型实时的互联网上的内容作为上下文/背景信息,从而使得模型的回答更加实时和准确。
OpenAI 的这个联网搜索工具由经过微调的 GPT-4o
或 GPT-4o mini
提供支持,和 ChatGPT 中的搜索功能是一样的。
这个工具对于构建需要实时、公开的外部数据支持的 AI Agent 很有用。不过,类似的替代品也有很多,比如谷歌搜索、Perplexity API 等等。
在 SimpleQA 基准测试中,GPT-4o
+ 联网搜索工具 达到了90% 的 SOTA(state-of-the-art)准确率。

2. File Search Tool(文件搜索工具)
严格来说,这不是一个新功能。OpenAI 早在去年就在 Assistants API 中推出了该功能,支持开发者上传、切分、嵌入文档,实现高效的 RAG(Retrieval-Augmented Generation,检索增强生成)。

想让一份非结构化文档,比如 PDF,变成 AI-ready 的数据,RAG 是绕不开的话题。
OpenAI 这一次是在之前的基础上增加了两个新功能:
-
元数据过滤(Metadata Filtering) :更丰富的元数据,意味着更精准、高效的查询和筛选。
-
直接搜索端点(Direct Search Endpoint) :有了它,开发者就可以直接在向量存储(Vector Store)中查询,而无需经过模型预处理。
3. Computer Use Tool(计算机操作工具)
高能预警,接下来出场的这位是重磅选手:Computer Use Tool。

如何让 AI 模型像真人一样操作你的电脑?
传统的方案是 API 接口调用。但这并不适用于大模型,因为太死板。
这里就要用到这个叫做“Computer Use”的工具。最早提出这个概念和工具的其实并不是 OpenAI,而是开发 Claude 的 Anthropic。
OpenAI 算是把这个概念给“发扬光大”了,直接把 Computer Use Tool 用到了前面提到的 Operator 这个 AI Agent 里。简单来说,这个工具就是借助了 GPT-4o
模型的视觉能力,让 AI 能够看懂电脑当前的页面内容,然后模拟真实用户进行鼠标和键盘操作,最终实现“操作电脑”的效果。OpenAI 把这个新模型称为 CUA(Computer-Using Agent)。

4. 全新的 Responses API
上面介绍的三个 AI Agent 工具很香,但如果想要同时调用它们怎么办?
OpenAI 原本的 Chat Completions API 肯定是无法满足这个需求的。
基于此,OpenAI 推出了全新的、更灵活易用的 Responses API。
Responses API 使用起来极其简单,支持多步操作,多个工具调用,并且支持多模态输入。
比如,Responses API 可以同时调用 RAG 和 联网搜索工具。

再比如,Responses API 可以直接调用 Computer Use Tool 在浏览器中自动完成商品购买流程。这是活脱脱复刻了一个小版的 Operator 啊。

5. 全新的 Agents SDK
Agents SDK,听起来高大上,但不是一个新东西。
Agents SDK 的原型是 OpenAI 去年10月发布并开源的(是的,你没有看错,是开源)一个多智能体工具:Swarm。详情看这里:OpenAI低调发布多智能体工具Swarm:让多个智能体协同工作!

Swarm 的主要用途是构建、管理和编排多个 AI Agents。此前 Swarm 一直处于实验性阶段,而现在 OpenAI 正式发布,并给它取了一个好听的名字:Agents SDK。
Agents SDK 让创建 Agent 变得更简单。同时支持多智能体编排(Agent Orchestration),允许不同 Agent 之间切换(Handoff)。

比如,可以从专门负责客户支持的 Agent 自动切换到专门负责退款的 Agent,以完成不同的任务。

同时,Agents SDK 配有一套 Tracing UI(监控界面),用于监测和调试 Agents 的功能。

结语
OpenAI 这菜,都快喂到嘴里了,虽然有“新瓶装老酒”的嫌疑。
AI Agent 的门槛,又成功被拉低了一截。
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)