刚刚，OpenAI 发布了GPT-5 前菜：ChatGPT Agent

OpenAI刚刚发布的ChatGPT Agent，让AI从「回答问题」进化到了「自己动手」。

统一的智能体系统

ChatGPT Agent是OpenAI推出的统一智能体，融合了远程浏览操作工具Operator、深度研究的网页信息综合功能和ChatGPT的对话优势。

它配备了完整的工具箱：

视觉浏览器
文本浏览器
终端接口
直接API调用

更重要的是，它能动态选择最佳处理路径，根据任务需求自动切换工具，保持任务上下文的连续性。

Greg Brockman(@gdb)介绍，这是OpenAI首款支持文本、视觉浏览及终端操作的AI智能体：

ChatGPT Agent实现了利用键盘、鼠标和屏幕像素与计算机交互的目标，模拟人类使用计算机的方式。

具体能做什么

ChatGPT Agent的演示场景包括：

日常生活任务：为朋友准备婚礼——购买服装、预订行程、挑选礼物

办公自动化：

自动抓取周一业绩数据，生成电子表格并安排定时执行
读取技术支持邮件，识别产品推广者，检索LinkedIn资料，综合客户画像
将财务和业务数据转化为高层汇报演示，自动分析利润表和绩效指标

网页操作：在获得用户授权后自动搜索信息、滚动页面、点击操作，完成预约和在线购物任务

Dan Shipper(@danshipper)详细测试后发现：

Agent能够进行全面的用户体验审核，访问多个网站，记录用户流程，并生成详细的可用性报告。还能实时从新闻网站、学术论文和讨论论坛收集信息，形成每日执行简报。

基准测试表现

在多项专业测试中，ChatGPT Agent展现了实力：

Humanity’s Last Exam（涵盖100多学科的2500道高难度题目）：

Agent模式准确率：41.6%
旧版本：20.3%
基于浏览功能版本：26.6%
通过并行尝试（最多8次）：44.4%

看来还是老马的Grok-4 Heavy以44.4%的得分领先ChatGPT Agent的41.6%啊。

FrontierMath数学基准测试：

首次尝试解决率：27.4%（±3%）
给予16次尝试机会后：49%

SpreadsheetBench电子表格编辑：

ChatGPT Agent：45.5%
Excel Copilot：20.0%

技术架构

OpenAI员工透露，ChatGPT Agent并非简单的功能叠加，而是经过强化学习（RL）微调的全新模型。

从其系统卡信息中可以看到该模型基于名为o3的新架构，经过强化学习优化以提升处理类似智能体任务的能力。这种专门设计的agentic模型，与传统的GPT模型存在显著差异。

Alex Volkov(@altryne)补充道：

Agents模型采用强化学习训练，能够灵活切换不同工作模式，并能在执行过程中与用户沟通，必要时提出澄清性问题。

实际使用体验

Ethan Mollick(@emollick)给出了早期测试中的体验：

使用Agent就像与真人实习生协同工作。你不再需要精确的提示词，而是通过不断的反馈和迭代来完成任务。

他展示了Agent如何从Kaggle数据集中提取分析内容，自动生成包含公式的Excel文件和PowerPoint演示文稿。当他指出数据异常时，Agent能够基于反馈检测出问题的存在及其成因。

并称：这种从「提示式操作」向「委托式协作」的转变，正在重新定义人机交互。

安全风险控制

OpenAI为ChatGPT Agent实施了多层次的安全缓解措施。

Sam Altman(@sama)特别强调：

虽然Agent在实用性上有显著提升，但潜在风险亦不可忽视。我们建议用户仅授予Agent完成目标所需的最小权限。

具体建议包括：

预订团队晚餐时可授权访问日历
购买服装则无需开放任何访问权限
避免让Agent自动处理未审核的电子邮件

Noam Brown(@polynoamial)揭示了一个技术细节：

工具型智能体存在通过网页检索答案实现「作弊」的风险。为此，OpenAI ChatGPT Agent团队特别设计了防范机制。

商业化探索

在技术创新的同时，OpenAI也在探索ChatGPT Agent的商业模式。据《金融时报》报道，OpenAI计划在ChatGPT中加入支付结算功能，使用户能在聊天界面完成购物支付，OpenAI将从中获取佣金。

Rohan Paul(@rohanpaul_ai)分析：

OpenAI推出的新ChatGPT智能体旨在实现多功能一体化，内置支付结算能力将使其成为真正的一站式助手。

开放计划与定价

ChatGPT Agent正在分批向用户开放：

Pro用户：发布当天即可使用，每月400次使用额度
Plus和Team用户：接下来几天内获得权限，每月40次使用机会
企业和教育用户：数周内展开访问

业内反应

对于ChatGPT Agent的发布，业内反应褒贬不一。

Bindu Reddy(@bindureddy)，Abacus AI CEO，将ChatGPT Agent与其公司的DeepAgent对比：

均定位为能够完成复杂任务的全能智能体，此类强大智能体未来将普及并广泛应用。

但她也表达了疑虑：

OpenAI目前部分模型表现不理想，期望其性能能够改进。

VraserX(@VraserX)的评价更加直接：

ChatGPT Agent不仅是传统意义上的新功能扩展，而是AI智能进化的新起点。

Agent Leaderboard v2的最新评测则揭示了新的竞争态势：

GPT-4.1：行动完成率62%，综合表现最佳
Gemini-2.5-flash：工具选择准确率94%领先，但行动完成率仅38%
开源模型Kimi K2：实现53%的行动完成度和90%的工具选择质量

值得注意的是，具备推理能力的模型在行动完成度方面整体落后于非推理模型。

Chubby(@kimmonismus)展示的案例中，Agent生成的复杂办公内容包括带有多个标签页的界面设计，全部通过AI自动完成：

这种技术对传统白领职业的影响不容忽视，未来部分常规办公工作岗位可能被AI自动化工具替代。

GPT-5的前菜

目前看来，ChatGPT Agent可能是GPT-5的前菜。

Haider分析：

OpenAI正在推进名为「ChatGPT Agent」的中期项目，这一系列并非GPT-5本体，而是在架构上整合了先前的agent模型Agent-0和Agent-1。预计2024年9月发布GPT-5，年底推出更多增强版agent。

来看ChatGPT Agent的表现：FrontierMath测试27.4%的准确率，需要16次尝试才能达到49%；HLE基准测试中略逊于Grok-4；在复杂的专业任务中仍需要人类不断纠正和引导。

ChatGPT Agent 强，但还不够。

它能自动生成PPT、操作Excel、完成多步骤任务，但离真正的人类打工人还有相当远的差距。

它更像是一个需要手把手指导的实习生，而不是独当一面的员工。

只是更好的「工具」，还未变成真正的「同事」。

但正是这种「不够强」，也更让GPT-5被期待。

如果ChatGPT Agent只是前菜，那么GPT-5会是怎样的主菜？

[1]

ChatGPT Agent介绍页面: https://openai.com/index/introducing-chatgpt-agent/

[2]

ChatGPT Agent系统卡: https://openai.com/index/chatgpt-agent-system-card/

[3]

生物领域AI能力预备博客: https://openai.com/index/preparing-for-future-ai-capabilities-in-biology/

[4]

Agent Leaderboard v2博客: https://galileo.ai/blog/agent-leaderboard-v2

[5]

Agent Leaderboard实时排行榜: https://huggingface.co/spaces/galileo-ai/agent-leaderboard

[6]

Epoch AI FrontierMath评测: https://epoch.ai/frontiermath

[7]

Dan Shipper详细评测: https://every.to/vibe-check/vibe-check-openai-enters-the-browser-wars-with-chatgpt-agent

[8]

Rohan Paul深度分析: https://www.rohan-paul.com/p/openais-new-chatgpt-agent-tries-to

[9]

VentureBeat: ChatGPT获得自主计算机权限: https://venturebeat.com/ai/openai-unveils-chatgpt-agent-that-gives-chatgpt-its-own-computer-to-autonomously-use-your-email-and-web-apps-download-and-create-files-for-you/

[10]

The Guardian: OpenAI推出个人助理: https://www.theguardian.com/technology/2025/jul/17/openai-launches-personal-assistant-capable-of-controlling-files-and-web-browsers

[11]

Sam Altman原推文: https://twitter.com/sama/status/1945900345378697650

[12]

OpenAI官方演示视频: https://twitter.com/OpenAI/status/1945904743148323285

[13]

ThursdAI直播讨论: https://x.com/i/broadcasts/1LyGBWqlWALJN

（文：AGI Hunt）

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31