2025,OpenAI 急着给 AI Agent 上大菜!

2025年,AI Agent 爆发之年。

AI Agent,国内有一个很“雅致”的名字:智能体。

关于 AI Agent,OpenAI 首席产品官(CPO)Kevin Weil 给出了这样的定义:能够自主执行任务的系统

其实 agent 一词在英文中愿意为“代理”,AI Agent,即 AI 代理,意为能够代理你独立自主地执行任务的 AI。这样是不是更好理解了。


OpenAI 自2025年以来已经发布了两款基于 ChatGPT 的 AI Agent:

  1. 可以代替你操作浏览器,自主执行任务的 Operator:OpenAI正式发布Operator,一款能操作浏览器的AI,打响2025智能体大战第一枪!

  2. 可以帮助你做深入的研究,整合海量在线信息,生成专业研究报告的 Deep Research:OpenAI的第二个AI Agent:Deep Research完全解读!


遗憾的是,尽管 OpenAI 吹得再响,这两个 AI Agent 并没有在市场上激起特别大的浪花。

反而是来自我国的 Manus AI,火得破了圈。好不好用不知道,但火,那是真火。

OpenAI 急啊,恐怕是急的要跳脚,遂于北京时间3月12日凌晨,突然的、毫无预热的、不符合其风格的举行了一场直播发布会。



整场发布会时长19分钟,发布的内容总结起来就是“3 + 1 + 1”:三个工具(tools);一个新 API(Responses API);一个新 SDK(Agents SDK)。

1. Web Search Tool(联网搜索工具)

大语言模型本身是不能联网搜索的,只能依据其训练数据生成答案。但为什么有的 AI 产品,比如 DeepSeek,就支持联网搜索实时内容,然后回答?

因为联网搜索工具

联网搜索工具,也就是这次发布的 Web Search Tool,能够提供给模型实时的互联网上的内容作为上下文/背景信息,从而使得模型的回答更加实时和准确。

OpenAI 的这个联网搜索工具由经过微调的 GPT-4o 或 GPT-4o mini 提供支持,和 ChatGPT 中的搜索功能是一样的。

这个工具对于构建需要实时、公开的外部数据支持的 AI Agent 很有用。不过,类似的替代品也有很多,比如谷歌搜索、Perplexity API 等等。

在 SimpleQA 基准测试中,GPT-4o + 联网搜索工具 达到了90% 的 SOTA(state-of-the-art)准确率。

2. File Search Tool(文件搜索工具)

严格来说,这不是一个新功能。OpenAI 早在去年就在 Assistants API 中推出了该功能,支持开发者上传、切分、嵌入文档,实现高效的 RAG(Retrieval-Augmented Generation,检索增强生成)。

想让一份非结构化文档,比如 PDF,变成 AI-ready 的数据,RAG 是绕不开的话题。

OpenAI 这一次是在之前的基础上增加了两个新功能:

  1. 元数据过滤(Metadata Filtering) :更丰富的元数据,意味着更精准、高效的查询和筛选。

  2. 直接搜索端点(Direct Search Endpoint) :有了它,开发者就可以直接在向量存储(Vector Store)中查询,而无需经过模型预处理。

3. Computer Use Tool(计算机操作工具)

高能预警,接下来出场的这位是重磅选手:Computer Use Tool

如何让 AI 模型像真人一样操作你的电脑?

传统的方案是 API 接口调用。但这并不适用于大模型,因为太死板。

这里就要用到这个叫做“Computer Use”的工具。最早提出这个概念和工具的其实并不是 OpenAI,而是开发 Claude 的 Anthropic。

OpenAI 算是把这个概念给“发扬光大”了,直接把 Computer Use Tool 用到了前面提到的 Operator 这个 AI Agent 里。简单来说,这个工具就是借助了 GPT-4o 模型的视觉能力,让 AI 能够看懂电脑当前的页面内容,然后模拟真实用户进行鼠标和键盘操作,最终实现“操作电脑”的效果。OpenAI 把这个新模型称为 CUAComputer-Using Agent)。



4. 全新的 Responses API

上面介绍的三个 AI Agent 工具很香,但如果想要同时调用它们怎么办?

OpenAI 原本的 Chat Completions API 肯定是无法满足这个需求的。

基于此,OpenAI 推出了全新的、更灵活易用的 Responses API

Responses API 使用起来极其简单,支持多步操作多个工具调用,并且支持多模态输入

比如,Responses API 可以同时调用 RAG 和 联网搜索工具。

再比如,Responses API 可以直接调用 Computer Use Tool 在浏览器中自动完成商品购买流程。这是活脱脱复刻了一个小版的 Operator 啊。



5. 全新的 Agents SDK

Agents SDK,听起来高大上,但不是一个新东西。

Agents SDK 的原型是 OpenAI 去年10月发布并开源的(是的,你没有看错,是开源)一个多智能体工具:Swarm。详情看这里:OpenAI低调发布多智能体工具Swarm:让多个智能体协同工作!

Swarm 的主要用途是构建、管理和编排多个 AI Agents。此前 Swarm 一直处于实验性阶段,而现在 OpenAI 正式发布,并给它取了一个好听的名字:Agents SDK

Agents SDK 让创建 Agent 变得更简单。同时支持多智能体编排(Agent Orchestration),允许不同 Agent 之间切换(Handoff)。

比如,可以从专门负责客户支持的 Agent 自动切换到专门负责退款的 Agent,以完成不同的任务。

同时,Agents SDK 配有一套 Tracing UI(监控界面),用于监测和调试 Agents 的功能。



结语

OpenAI 这菜,都快喂到嘴里了,虽然有“新瓶装老酒”的嫌疑。

AI Agent 的门槛,又成功被拉低了一截。



我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

欢迎分享

发表评论