刚刚,OpenAI 发布了GPT-5 前菜:ChatGPT Agent

OpenAI刚刚发布的ChatGPT Agent,让AI从「回答问题」进化到了「自己动手」。

统一的智能体系统

ChatGPT Agent是OpenAI推出的统一智能体,融合了远程浏览操作工具Operator、深度研究的网页信息综合功能和ChatGPT的对话优势。

它配备了完整的工具箱:

  • 视觉浏览器
  • 文本浏览器
  • 终端接口
  • 直接API调用

更重要的是,它能动态选择最佳处理路径,根据任务需求自动切换工具,保持任务上下文的连续性。

Greg Brockman(@gdb)介绍,这是OpenAI首款支持文本、视觉浏览及终端操作的AI智能体:

ChatGPT Agent实现了利用键盘、鼠标和屏幕像素与计算机交互的目标,模拟人类使用计算机的方式。

具体能做什么

ChatGPT Agent的演示场景包括:

日常生活任务:为朋友准备婚礼——购买服装、预订行程、挑选礼物

办公自动化

  • 自动抓取周一业绩数据,生成电子表格并安排定时执行
  • 读取技术支持邮件,识别产品推广者,检索LinkedIn资料,综合客户画像
  • 将财务和业务数据转化为高层汇报演示,自动分析利润表和绩效指标

网页操作:在获得用户授权后自动搜索信息、滚动页面、点击操作,完成预约和在线购物任务

Dan Shipper(@danshipper)详细测试后发现:

Agent能够进行全面的用户体验审核,访问多个网站,记录用户流程,并生成详细的可用性报告。还能实时从新闻网站、学术论文和讨论论坛收集信息,形成每日执行简报。

基准测试表现

在多项专业测试中,ChatGPT Agent展现了实力:

Humanity’s Last Exam(涵盖100多学科的2500道高难度题目):

  • Agent模式准确率:41.6%
  • 旧版本:20.3%
  • 基于浏览功能版本:26.6%
  • 通过并行尝试(最多8次):44.4%

看来还是老马的Grok-4 Heavy以44.4%的得分领先ChatGPT Agent的41.6%啊。

FrontierMath数学基准测试

  • 首次尝试解决率:27.4%(±3%)
  • 给予16次尝试机会后:49%

SpreadsheetBench电子表格编辑

  • ChatGPT Agent:45.5%
  • Excel Copilot:20.0%

技术架构

OpenAI员工透露,ChatGPT Agent并非简单的功能叠加,而是经过强化学习(RL)微调的全新模型。

从其系统卡信息中可以看到该模型基于名为o3的新架构,经过强化学习优化以提升处理类似智能体任务的能力。这种专门设计的agentic模型,与传统的GPT模型存在显著差异。

Alex Volkov(@altryne)补充道:

Agents模型采用强化学习训练,能够灵活切换不同工作模式,并能在执行过程中与用户沟通,必要时提出澄清性问题。

实际使用体验

Ethan Mollick(@emollick)给出了早期测试中的体验:

使用Agent就像与真人实习生协同工作。你不再需要精确的提示词,而是通过不断的反馈和迭代来完成任务。

他展示了Agent如何从Kaggle数据集中提取分析内容,自动生成包含公式的Excel文件和PowerPoint演示文稿。当他指出数据异常时,Agent能够基于反馈检测出问题的存在及其成因。

并称:这种从「提示式操作」向「委托式协作」的转变,正在重新定义人机交互。

安全风险控制

OpenAI为ChatGPT Agent实施了多层次的安全缓解措施。

Sam Altman(@sama)特别强调:

虽然Agent在实用性上有显著提升,但潜在风险亦不可忽视。我们建议用户仅授予Agent完成目标所需的最小权限。

具体建议包括:

  • 预订团队晚餐时可授权访问日历
  • 购买服装则无需开放任何访问权限
  • 避免让Agent自动处理未审核的电子邮件

Noam Brown(@polynoamial)揭示了一个技术细节:

工具型智能体存在通过网页检索答案实现「作弊」的风险。为此,OpenAI ChatGPT Agent团队特别设计了防范机制。

商业化探索

在技术创新的同时,OpenAI也在探索ChatGPT Agent的商业模式。据《金融时报》报道,OpenAI计划在ChatGPT中加入支付结算功能,使用户能在聊天界面完成购物支付,OpenAI将从中获取佣金。

Rohan Paul(@rohanpaul_ai)分析:

OpenAI推出的新ChatGPT智能体旨在实现多功能一体化,内置支付结算能力将使其成为真正的一站式助手。

开放计划与定价

ChatGPT Agent正在分批向用户开放:

  • Pro用户:发布当天即可使用,每月400次使用额度
  • Plus和Team用户:接下来几天内获得权限,每月40次使用机会
  • 企业和教育用户:数周内展开访问

业内反应

对于ChatGPT Agent的发布,业内反应褒贬不一。

Bindu Reddy(@bindureddy),Abacus AI CEO,将ChatGPT Agent与其公司的DeepAgent对比:

均定位为能够完成复杂任务的全能智能体,此类强大智能体未来将普及并广泛应用。

但她也表达了疑虑:

OpenAI目前部分模型表现不理想,期望其性能能够改进。

VraserX(@VraserX)的评价更加直接:

ChatGPT Agent不仅是传统意义上的新功能扩展,而是AI智能进化的新起点。

Agent Leaderboard v2的最新评测则揭示了新的竞争态势:

  • GPT-4.1:行动完成率62%,综合表现最佳
  • Gemini-2.5-flash:工具选择准确率94%领先,但行动完成率仅38%
  • 开源模型Kimi K2:实现53%的行动完成度和90%的工具选择质量

值得注意的是,具备推理能力的模型在行动完成度方面整体落后于非推理模型。

Chubby(@kimmonismus)展示的案例中,Agent生成的复杂办公内容包括带有多个标签页的界面设计,全部通过AI自动完成:

这种技术对传统白领职业的影响不容忽视,未来部分常规办公工作岗位可能被AI自动化工具替代。

GPT-5的前菜

目前看来,ChatGPT Agent可能是GPT-5的前菜。

Haider分析:

OpenAI正在推进名为「ChatGPT Agent」的中期项目,这一系列并非GPT-5本体,而是在架构上整合了先前的agent模型Agent-0和Agent-1。预计2024年9月发布GPT-5,年底推出更多增强版agent。

来看ChatGPT Agent的表现:FrontierMath测试27.4%的准确率,需要16次尝试才能达到49%;HLE基准测试中略逊于Grok-4;在复杂的专业任务中仍需要人类不断纠正和引导。

ChatGPT Agent 强,但还不够。

它能自动生成PPT、操作Excel、完成多步骤任务,但离真正的人类打工人还有相当远的差距。

它更像是一个需要手把手指导的实习生,而不是独当一面的员工。

只是更好的「工具」,还未变成真正的「同事」。

但正是这种「不够强」,也更让GPT-5被期待。

如果ChatGPT Agent只是前菜,那么GPT-5会是怎样的主菜?




[1]

ChatGPT Agent介绍页面: https://openai.com/index/introducing-chatgpt-agent/

[2]

ChatGPT Agent系统卡: https://openai.com/index/chatgpt-agent-system-card/

[3]

生物领域AI能力预备博客: https://openai.com/index/preparing-for-future-ai-capabilities-in-biology/

[4]

Agent Leaderboard v2博客: https://galileo.ai/blog/agent-leaderboard-v2

[5]

Agent Leaderboard实时排行榜: https://huggingface.co/spaces/galileo-ai/agent-leaderboard

[6]

Epoch AI FrontierMath评测: https://epoch.ai/frontiermath

[7]

Dan Shipper详细评测: https://every.to/vibe-check/vibe-check-openai-enters-the-browser-wars-with-chatgpt-agent

[8]

Rohan Paul深度分析: https://www.rohan-paul.com/p/openais-new-chatgpt-agent-tries-to

[9]

VentureBeat: ChatGPT获得自主计算机权限: https://venturebeat.com/ai/openai-unveils-chatgpt-agent-that-gives-chatgpt-its-own-computer-to-autonomously-use-your-email-and-web-apps-download-and-create-files-for-you/

[10]

The Guardian: OpenAI推出个人助理: https://www.theguardian.com/technology/2025/jul/17/openai-launches-personal-assistant-capable-of-controlling-files-and-web-browsers

[11]

Sam Altman原推文: https://twitter.com/sama/status/1945900345378697650

[12]

OpenAI官方演示视频: https://twitter.com/OpenAI/status/1945904743148323285

[13]

ThursdAI直播讨论: https://x.com/i/broadcasts/1LyGBWqlWALJN


(文:AGI Hunt)

发表评论