2025，OpenAI 急着给 AI Agent 上大菜！

2025年，AI Agent 爆发之年。

AI Agent，国内有一个很“雅致”的名字：智能体。

关于 AI Agent，OpenAI 首席产品官（CPO）Kevin Weil 给出了这样的定义：能够自主执行任务的系统。

其实 agent 一词在英文中愿意为“代理”，AI Agent，即 AI 代理，意为能够代理你独立自主地执行任务的 AI。这样是不是更好理解了。

OpenAI 自2025年以来已经发布了两款基于 ChatGPT 的 AI Agent：

可以代替你操作浏览器，自主执行任务的 Operator：OpenAI正式发布Operator，一款能操作浏览器的AI，打响2025智能体大战第一枪！
可以帮助你做深入的研究，整合海量在线信息，生成专业研究报告的 Deep Research：OpenAI的第二个AI Agent：Deep Research完全解读！

遗憾的是，尽管 OpenAI 吹得再响，这两个 AI Agent 并没有在市场上激起特别大的浪花。

反而是来自我国的 Manus AI，火得破了圈。好不好用不知道，但火，那是真火。

OpenAI 急啊，恐怕是急的要跳脚，遂于北京时间3月12日凌晨，突然的、毫无预热的、不符合其风格的举行了一场直播发布会。

整场发布会时长19分钟，发布的内容总结起来就是“3 + 1 + 1”：三个工具（tools）；一个新 API（Responses API）；一个新 SDK（Agents SDK）。

1. Web Search Tool（联网搜索工具）

大语言模型本身是不能联网搜索的，只能依据其训练数据生成答案。但为什么有的 AI 产品，比如 DeepSeek，就支持联网搜索实时内容，然后回答？

因为联网搜索工具。

联网搜索工具，也就是这次发布的 Web Search Tool，能够提供给模型实时的互联网上的内容作为上下文/背景信息，从而使得模型的回答更加实时和准确。

OpenAI 的这个联网搜索工具由经过微调的 GPT-4o 或 GPT-4o mini 提供支持，和 ChatGPT 中的搜索功能是一样的。

这个工具对于构建需要实时、公开的外部数据支持的 AI Agent 很有用。不过，类似的替代品也有很多，比如谷歌搜索、Perplexity API 等等。

在 SimpleQA 基准测试中，GPT-4o + 联网搜索工具达到了90% 的 SOTA（state-of-the-art）准确率。

2. File Search Tool（文件搜索工具）

严格来说，这不是一个新功能。OpenAI 早在去年就在 Assistants API 中推出了该功能，支持开发者上传、切分、嵌入文档，实现高效的 RAG（Retrieval-Augmented Generation，检索增强生成）。

想让一份非结构化文档，比如 PDF，变成 AI-ready 的数据，RAG 是绕不开的话题。

OpenAI 这一次是在之前的基础上增加了两个新功能：

元数据过滤（Metadata Filtering） ：更丰富的元数据，意味着更精准、高效的查询和筛选。
直接搜索端点（Direct Search Endpoint） ：有了它，开发者就可以直接在向量存储（Vector Store）中查询，而无需经过模型预处理。

3. Computer Use Tool（计算机操作工具）

高能预警，接下来出场的这位是重磅选手：Computer Use Tool。

如何让 AI 模型像真人一样操作你的电脑？

传统的方案是 API 接口调用。但这并不适用于大模型，因为太死板。

这里就要用到这个叫做“Computer Use”的工具。最早提出这个概念和工具的其实并不是 OpenAI，而是开发 Claude 的 Anthropic。

OpenAI 算是把这个概念给“发扬光大”了，直接把 Computer Use Tool 用到了前面提到的 Operator 这个 AI Agent 里。简单来说，这个工具就是借助了 GPT-4o 模型的视觉能力，让 AI 能够看懂电脑当前的页面内容，然后模拟真实用户进行鼠标和键盘操作，最终实现“操作电脑”的效果。OpenAI 把这个新模型称为 CUA（Computer-Using Agent）。

4. 全新的 Responses API

上面介绍的三个 AI Agent 工具很香，但如果想要同时调用它们怎么办？

OpenAI 原本的 Chat Completions API 肯定是无法满足这个需求的。

基于此，OpenAI 推出了全新的、更灵活易用的 Responses API。

Responses API 使用起来极其简单，支持多步操作，多个工具调用，并且支持多模态输入。

比如，Responses API 可以同时调用 RAG 和联网搜索工具。

再比如，Responses API 可以直接调用 Computer Use Tool 在浏览器中自动完成商品购买流程。这是活脱脱复刻了一个小版的 Operator 啊。

5. 全新的 Agents SDK

Agents SDK，听起来高大上，但不是一个新东西。

Agents SDK 的原型是 OpenAI 去年10月发布并开源的（是的，你没有看错，是开源）一个多智能体工具：Swarm。详情看这里：OpenAI低调发布多智能体工具Swarm：让多个智能体协同工作！

Swarm 的主要用途是构建、管理和编排多个 AI Agents。此前 Swarm 一直处于实验性阶段，而现在 OpenAI 正式发布，并给它取了一个好听的名字：Agents SDK。

Agents SDK 让创建 Agent 变得更简单。同时支持多智能体编排（Agent Orchestration），允许不同 Agent 之间切换（Handoff）。

比如，可以从专门负责客户支持的 Agent 自动切换到专门负责退款的 Agent，以完成不同的任务。

同时，Agents SDK 配有一套 Tracing UI（监控界面），用于监测和调试 Agents 的功能。

结语

OpenAI 这菜，都快喂到嘴里了，虽然有“新瓶装老酒”的嫌疑。

AI Agent 的门槛，又成功被拉低了一截。

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

（文：AI信息Gap）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

1. Web Search Tool（联网搜索工具）

2. File Search Tool（文件搜索工具）

3. Computer Use Tool（计算机操作工具）

4. 全新的 Responses API

5. 全新的 Agents SDK

结语

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复