重磅！OpenAI深夜发布ChatGPT Agent：AI打工人正式上线「附发布会全程视频」

OpenAI深夜放大招，正式推出ChatGPT Agent，这个Agent把ChatGPT的深度研究与自主网络浏览以及强大工具使用能力做成了一个整体，像是一个真正的AI打工人雏形，可以生成ppt，进行专业数据分析，购物，投资建模，使用你的电脑等等

简单来说ChatGPT Agent是一个统一的智能体，主要结合Operator远程浏览器（与网站交互的能力）和Deep Research（深度研究与分析能力）。通过整合这两种互补优势，并引入更多工具，ChatGPT Agent实现了前所未有的能力

从今天起，Pro、Plus和Team用户可以通过聊天框下方的工具下拉菜单，选择“agent mode”（代理模式）来激活此功能，

核心功能

ChatGPT Agent的核心能力在于，它能够主动选择并使用一系列强大的“代理技能工具箱”，在用户的授权下完成从头到尾的复杂任务。

比如可以向它下达这样的指令：

“查看我的日历，并根据最近的新闻为我简报即将到来的客户会议。”
“为四人份的日式早餐制定计划、并购买所需食材。”
“分析三个主要竞争对手，并为我创建一个幻灯片报告。”

接到指令后，ChatGPT Agent会智能地浏览网站、筛选信息、在需要时安全地提示登录、运行代码进行分析，甚至最终交付可编辑的幻灯片和电子表格，全面总结其发现

AI打工人工作原理

OpenAI为ChatGPT Agent配备了一套强大的工具集，运行在其专属的虚拟计算机上：

可视化浏览器： 通过图形用户界面与为人类设计的网站进行交互

文本浏览器： 用于高效处理和理解大量文本信息
终端（Terminal）： 用于执行代码、处理文件等后台操作

直接API访问与连接器： 能够连接到Gmail、GitHub等第三方应用，获取日历信息、邮件内容等，并将其用于任务执行中

ChatGPT agent 专为迭代式、协作式工作流程设计，比之前的模型更具互动性和灵活性。在使用 ChatGPT 的过程中，你可以在任何时刻打断它，以澄清指令、引导其达成预期结果，或完全更改任务。它会从上次中断的地方继续，并融入新的信息，但不会丢失之前的进度。同样，ChatGPT 在需要时也会主动向你寻求更多细节，以确保任务始终与你的目标保持一致。如果任务比预期花费的时间更长或感觉卡壳，你可以暂停它，要求它提供进度摘要，或完全停止任务并获取部分结果。如果你在手机上安装了 ChatGPT 应用，当它完成你的任务时，会向你发送通知。

这些统一的代理功能显著提升了 ChatGPT 在日常和职业环境中的实用性。在工作中，你可以自动化重复性任务，例如将截图或仪表盘转换为由可编辑矢量元素组成的演示文稿，重新安排会议，规划并预订线下活动，以及用新的财务数据更新电子表格同时保持相同的格式。在个人生活中，你可以用它轻松规划和预订旅行行程，设计和预订整个晚宴，或寻找专家并安排预约

性能表现：在多个基准测试中刷新纪录

ChatGPT Agent的卓越能力在多个行业标准和内部基准测试中得到了验证，其性能在许多复杂任务上已达到甚至超越了人类水平

Humanity’s Last Exam (HLE): 衡量AI在专家级问题上表现的测试中，ChatGPT Agent取得了41.6%的pass@1新纪录

FrontierMath: 目前最难的数学基准测试，Agent利用工具（如终端执行代码）将准确率提升至27.4%，远超以往模型

经济价值任务: 在模拟复杂知识工作的内部基准测试中，ChatGPT Agent的产出在约一半的情况下与人类顶尖水平相当或更优

DSBench (数据科学): 在数据分析和建模任务上，Agent的表现显著超越了人类专家

SpreadsheetBench (电子表格): Agent在编辑真实世界电子表格方面的能力远超现有模型。当被赋予直接编辑.xlsx文件的权限时，其准确率高达45.5%，而Copilot in Excel为20.0%

投资银行建模: 在模拟投行分析师的复杂任务（如为财富500强公司建立财务模型）中，Agent的表现显著优于Deep Research和o3模型

网页浏览 (BrowseComp & WebArena): 在网页信息定位和真实世界网页任务中，Agent同样刷新了SOTA纪录，并超越了前代模型

OpenAI认为ChatGPT Agent具有很大风险

值得注意的是，由于其能力增强，OpenAI已根据其 《准备度框架》 将ChatGPT Agent列为具有 高等级生物与化学（High Biological and Chemical） 潜在能力，并因此启动了最高级别的安全保障措施。这包括全面的威胁建模、双重用途拒绝训练、全天候分类器与推理监控等，构成了OpenAI迄今最强大的生物安全防护体系

最后：

具体表现如何，还得等后续测试，测试结果敬请期待

参考：

https://openai.com/index/introducing-chatgpt-agent/

（文：AI寒武纪）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

核心功能

AI打工人工作原理

性能表现：在多个基准测试中刷新纪录

OpenAI认为ChatGPT Agent具有很大风险

发表评论 取消回复

发表评论取消回复