重磅!OpenAI深夜发布ChatGPT Agent:AI打工人正式上线「附发布会全程视频」


 

OpenAI深夜放大招,正式推出ChatGPT Agent,这个Agent把ChatGPT的深度研究与自主网络浏览以及强大工具使用能力做成了一个整体,像是一个真正的AI打工人雏形,可以生成ppt,进行专业数据分析,购物,投资建模,使用你的电脑等等

简单来说ChatGPT Agent是一个统一的智能体,主要结合Operator远程浏览器(与网站交互的能力)和Deep Research(深度研究与分析能力)。通过整合这两种互补优势,并引入更多工具,ChatGPT Agent实现了前所未有的能力

从今天起,Pro、Plus和Team用户可以通过聊天框下方的工具下拉菜单,选择“agent mode”(代理模式)来激活此功能,

核心功能

ChatGPT Agent的核心能力在于,它能够主动选择并使用一系列强大的“代理技能工具箱”,在用户的授权下完成从头到尾的复杂任务。

比如可以向它下达这样的指令:

“查看我的日历,并根据最近的新闻为我简报即将到来的客户会议。”
“为四人份的日式早餐制定计划、并购买所需食材。”
“分析三个主要竞争对手,并为我创建一个幻灯片报告。”

接到指令后,ChatGPT Agent会智能地浏览网站、筛选信息、在需要时安全地提示登录、运行代码进行分析,甚至最终交付可编辑的幻灯片和电子表格,全面总结其发现

AI打工人工作原理

OpenAI为ChatGPT Agent配备了一套强大的工具集,运行在其专属的虚拟计算机上:

可视化浏览器: 通过图形用户界面与为人类设计的网站进行交互

文本浏览器: 用于高效处理和理解大量文本信息
终端(Terminal): 用于执行代码、处理文件等后台操作

直接API访问与连接器: 能够连接到Gmail、GitHub等第三方应用,获取日历信息、邮件内容等,并将其用于任务执行中

 


ChatGPT agent 专为迭代式、协作式工作流程设计,比之前的模型更具互动性和灵活性。在使用 ChatGPT 的过程中,你可以在任何时刻打断它,以澄清指令、引导其达成预期结果,或完全更改任务。它会从上次中断的地方继续,并融入新的信息,但不会丢失之前的进度。同样,ChatGPT 在需要时也会主动向你寻求更多细节,以确保任务始终与你的目标保持一致。如果任务比预期花费的时间更长或感觉卡壳,你可以暂停它,要求它提供进度摘要,或完全停止任务并获取部分结果。如果你在手机上安装了 ChatGPT 应用,当它完成你的任务时,会向你发送通知。

这些统一的代理功能显著提升了 ChatGPT 在日常和职业环境中的实用性。在工作中,你可以自动化重复性任务,例如将截图或仪表盘转换为由可编辑矢量元素组成的演示文稿,重新安排会议,规划并预订线下活动,以及用新的财务数据更新电子表格同时保持相同的格式。在个人生活中,你可以用它轻松规划和预订旅行行程,设计和预订整个晚宴,或寻找专家并安排预约

 

性能表现:在多个基准测试中刷新纪录

ChatGPT Agent的卓越能力在多个行业标准和内部基准测试中得到了验证,其性能在许多复杂任务上已达到甚至超越了人类水平

Humanity’s Last Exam (HLE): 衡量AI在专家级问题上表现的测试中,ChatGPT Agent取得了41.6%的pass@1新纪录

FrontierMath: 目前最难的数学基准测试,Agent利用工具(如终端执行代码)将准确率提升至27.4%,远超以往模型

经济价值任务: 在模拟复杂知识工作的内部基准测试中,ChatGPT Agent的产出在约一半的情况下与人类顶尖水平相当或更优

DSBench (数据科学): 在数据分析和建模任务上,Agent的表现显著超越了人类专家

SpreadsheetBench (电子表格): Agent在编辑真实世界电子表格方面的能力远超现有模型。当被赋予直接编辑.xlsx文件的权限时,其准确率高达45.5%,而Copilot in Excel为20.0%

投资银行建模: 在模拟投行分析师的复杂任务(如为财富500强公司建立财务模型)中,Agent的表现显著优于Deep Research和o3模型

网页浏览 (BrowseComp & WebArena): 在网页信息定位和真实世界网页任务中,Agent同样刷新了SOTA纪录,并超越了前代模型

OpenAI认为ChatGPT Agent具有很大风险

值得注意的是,由于其能力增强,OpenAI已根据其 《准备度框架》 将ChatGPT Agent列为具有 高等级生物与化学(High Biological and Chemical) 潜在能力,并因此启动了最高级别的安全保障措施。这包括全面的威胁建模、双重用途拒绝训练、全天候分类器与推理监控等,构成了OpenAI迄今最强大的生物安全防护体系

最后:

具体表现如何,还得等后续测试,测试结果敬请期待

参考:

https://openai.com/index/introducing-chatgpt-agent/

 


(文:AI寒武纪)

发表评论