OpenAI刚刚发布的ChatGPT Agent,让AI从「回答问题」进化到了「自己动手」。
统一的智能体系统
ChatGPT Agent是OpenAI推出的统一智能体,融合了远程浏览操作工具Operator、深度研究的网页信息综合功能和ChatGPT的对话优势。
它配备了完整的工具箱:
-
视觉浏览器 -
文本浏览器 -
终端接口 -
直接API调用
更重要的是,它能动态选择最佳处理路径,根据任务需求自动切换工具,保持任务上下文的连续性。

Greg Brockman(@gdb)介绍,这是OpenAI首款支持文本、视觉浏览及终端操作的AI智能体:
ChatGPT Agent实现了利用键盘、鼠标和屏幕像素与计算机交互的目标,模拟人类使用计算机的方式。
具体能做什么
ChatGPT Agent的演示场景包括:
日常生活任务:为朋友准备婚礼——购买服装、预订行程、挑选礼物
办公自动化:
-
自动抓取周一业绩数据,生成电子表格并安排定时执行 -
读取技术支持邮件,识别产品推广者,检索LinkedIn资料,综合客户画像 -
将财务和业务数据转化为高层汇报演示,自动分析利润表和绩效指标
网页操作:在获得用户授权后自动搜索信息、滚动页面、点击操作,完成预约和在线购物任务
Dan Shipper(@danshipper)详细测试后发现:
Agent能够进行全面的用户体验审核,访问多个网站,记录用户流程,并生成详细的可用性报告。还能实时从新闻网站、学术论文和讨论论坛收集信息,形成每日执行简报。

基准测试表现
在多项专业测试中,ChatGPT Agent展现了实力:
Humanity’s Last Exam(涵盖100多学科的2500道高难度题目):
-
Agent模式准确率:41.6% -
旧版本:20.3% -
基于浏览功能版本:26.6% -
通过并行尝试(最多8次):44.4%
看来还是老马的Grok-4 Heavy以44.4%的得分领先ChatGPT Agent的41.6%啊。

FrontierMath数学基准测试:
-
首次尝试解决率:27.4%(±3%) -
给予16次尝试机会后:49%

SpreadsheetBench电子表格编辑:
-
ChatGPT Agent:45.5% -
Excel Copilot:20.0%
技术架构
OpenAI员工透露,ChatGPT Agent并非简单的功能叠加,而是经过强化学习(RL)微调的全新模型。
从其系统卡信息中可以看到该模型基于名为o3的新架构,经过强化学习优化以提升处理类似智能体任务的能力。这种专门设计的agentic模型,与传统的GPT模型存在显著差异。

Alex Volkov(@altryne)补充道:
Agents模型采用强化学习训练,能够灵活切换不同工作模式,并能在执行过程中与用户沟通,必要时提出澄清性问题。

实际使用体验
Ethan Mollick(@emollick)给出了早期测试中的体验:
使用Agent就像与真人实习生协同工作。你不再需要精确的提示词,而是通过不断的反馈和迭代来完成任务。

他展示了Agent如何从Kaggle数据集中提取分析内容,自动生成包含公式的Excel文件和PowerPoint演示文稿。当他指出数据异常时,Agent能够基于反馈检测出问题的存在及其成因。


并称:这种从「提示式操作」向「委托式协作」的转变,正在重新定义人机交互。
安全风险控制
OpenAI为ChatGPT Agent实施了多层次的安全缓解措施。
Sam Altman(@sama)特别强调:
虽然Agent在实用性上有显著提升,但潜在风险亦不可忽视。我们建议用户仅授予Agent完成目标所需的最小权限。
具体建议包括:
-
预订团队晚餐时可授权访问日历 -
购买服装则无需开放任何访问权限 -
避免让Agent自动处理未审核的电子邮件
Noam Brown(@polynoamial)揭示了一个技术细节:
工具型智能体存在通过网页检索答案实现「作弊」的风险。为此,OpenAI ChatGPT Agent团队特别设计了防范机制。
商业化探索
在技术创新的同时,OpenAI也在探索ChatGPT Agent的商业模式。据《金融时报》报道,OpenAI计划在ChatGPT中加入支付结算功能,使用户能在聊天界面完成购物支付,OpenAI将从中获取佣金。
Rohan Paul(@rohanpaul_ai)分析:
OpenAI推出的新ChatGPT智能体旨在实现多功能一体化,内置支付结算能力将使其成为真正的一站式助手。

开放计划与定价
ChatGPT Agent正在分批向用户开放:
-
Pro用户:发布当天即可使用,每月400次使用额度 -
Plus和Team用户:接下来几天内获得权限,每月40次使用机会 -
企业和教育用户:数周内展开访问
业内反应
对于ChatGPT Agent的发布,业内反应褒贬不一。
Bindu Reddy(@bindureddy),Abacus AI CEO,将ChatGPT Agent与其公司的DeepAgent对比:
均定位为能够完成复杂任务的全能智能体,此类强大智能体未来将普及并广泛应用。
但她也表达了疑虑:
OpenAI目前部分模型表现不理想,期望其性能能够改进。
VraserX(@VraserX)的评价更加直接:
ChatGPT Agent不仅是传统意义上的新功能扩展,而是AI智能进化的新起点。

Agent Leaderboard v2的最新评测则揭示了新的竞争态势:

-
GPT-4.1:行动完成率62%,综合表现最佳 -
Gemini-2.5-flash:工具选择准确率94%领先,但行动完成率仅38% -
开源模型Kimi K2:实现53%的行动完成度和90%的工具选择质量
值得注意的是,具备推理能力的模型在行动完成度方面整体落后于非推理模型。

Chubby(@kimmonismus)展示的案例中,Agent生成的复杂办公内容包括带有多个标签页的界面设计,全部通过AI自动完成:
这种技术对传统白领职业的影响不容忽视,未来部分常规办公工作岗位可能被AI自动化工具替代。
GPT-5的前菜
目前看来,ChatGPT Agent可能是GPT-5的前菜。

Haider分析:
OpenAI正在推进名为「ChatGPT Agent」的中期项目,这一系列并非GPT-5本体,而是在架构上整合了先前的agent模型Agent-0和Agent-1。预计2024年9月发布GPT-5,年底推出更多增强版agent。
来看ChatGPT Agent的表现:FrontierMath测试27.4%的准确率,需要16次尝试才能达到49%;HLE基准测试中略逊于Grok-4;在复杂的专业任务中仍需要人类不断纠正和引导。
ChatGPT Agent 强,但还不够。
它能自动生成PPT、操作Excel、完成多步骤任务,但离真正的人类打工人还有相当远的差距。
它更像是一个需要手把手指导的实习生,而不是独当一面的员工。
只是更好的「工具」,还未变成真正的「同事」。
但正是这种「不够强」,也更让GPT-5被期待。
如果ChatGPT Agent只是前菜,那么GPT-5会是怎样的主菜?
ChatGPT Agent介绍页面: https://openai.com/index/introducing-chatgpt-agent/
[2]ChatGPT Agent系统卡: https://openai.com/index/chatgpt-agent-system-card/
[3]生物领域AI能力预备博客: https://openai.com/index/preparing-for-future-ai-capabilities-in-biology/
[4]Agent Leaderboard v2博客: https://galileo.ai/blog/agent-leaderboard-v2
[5]Agent Leaderboard实时排行榜: https://huggingface.co/spaces/galileo-ai/agent-leaderboard
[6]Epoch AI FrontierMath评测: https://epoch.ai/frontiermath
[7]Dan Shipper详细评测: https://every.to/vibe-check/vibe-check-openai-enters-the-browser-wars-with-chatgpt-agent
[8]Rohan Paul深度分析: https://www.rohan-paul.com/p/openais-new-chatgpt-agent-tries-to
[9]VentureBeat: ChatGPT获得自主计算机权限: https://venturebeat.com/ai/openai-unveils-chatgpt-agent-that-gives-chatgpt-its-own-computer-to-autonomously-use-your-email-and-web-apps-download-and-create-files-for-you/
[10]The Guardian: OpenAI推出个人助理: https://www.theguardian.com/technology/2025/jul/17/openai-launches-personal-assistant-capable-of-controlling-files-and-web-browsers
[11]Sam Altman原推文: https://twitter.com/sama/status/1945900345378697650
[12]OpenAI官方演示视频: https://twitter.com/OpenAI/status/1945904743148323285
[13]ThursdAI直播讨论: https://x.com/i/broadcasts/1LyGBWqlWALJN
(文:AGI Hunt)