打响OpenAI L3级AI智能体当头炮!Operator控制电脑独立自主执行任务,订票、网购都可代劳



点击上方 硬AI 关注我们

支持Operator的模型CUA结合了GPT-4o的视觉功能与高级推理能力,没有人类干预独立执行任务。本周四推出的研究预览版Operator首先在美国上线,面向ChatGPT Pro用户。CEO Altman称Operator是进入Level 3 AI的开始。

   硬·AI   

作者 | 李 丹

      编辑 | 硬 AI

两周多以前,OpenAI CEO Sam Altman在反思ChatGPT问世两周年的博文中预言,2025年将是人工智能智能体(AI agent)的“大年”,这一年可能有第一批AI智能体“加入劳动力大军”,并明显改变企业产出。现在OpenAI打响了推出L3级AI智能体的第一枪。

美东时间1月23日周四,OpenAI宣布上线名为Operator的首款AI智能体,它能通过网页执行各种任务,在没有人类干预的情况下,独立为用户完成工作,“只需给它一个任务,它就会执行。”

Operator可以像人类一样使用互联网执行各种任务,可以打开一个浏览器,点击页面的按钮并打字输入内容。人类用户上网会做的那些事,比如预订机票、酒店订房、规划购物订单并完成网购,都可以由Operator代劳。

如以下截图所示,Operator的界面中有多种任务类别可供用户选择,包括购物、送货、餐饮、旅行、新闻,所有这些类别都支持不同类型的自动化执行任务。

OpenAI的Operator产品和工程主管Yash Kumar称,OpenAI和包括Instacart、OpenTable、Uber、StubHub在内的多家公司合作开发Operator,确保该服务能在这些合作方的网站顺畅运行。

01



Altman称Operator

是进入Level 3 AI的开始

Operator意味着,继微软、Anthropic等对手之后,OpenAI也进入了AI智能体时代,而且是OpenAI去年“自定义”的AI发展等级第三级(Level 3)。

OpenAI的CEO Sam Altman本周四做完Operator相关演示后表示:“这是我们进入Level 3的开始。”

华尔街见闻去年7月提到,OpenAI开发了一套系统,“自定义”AI进化等级,以此追踪开发人类级别AI的进展。OpenAI该系统的五个等级分别是:

最低级一级:聊天机器人,这是能以对话语言和人类互动的AI。
二级:推理者,这种AI可以解决人类级别的问题。
三级:智能体,这种AI是可以采取行动的系统。
四级:创新者,这是可以帮助发明创造的AI。
最高级五级:组织,这种AI可以完成一个组织的工作。

02



结合GPT-4o视觉功能与高级推理能力

无需API

OpenAI介绍,Operator的软件结合了OpenAI的一些计算机视觉功能,以及旨在模仿人类推理方式的多步骤问题解决能力。支持Operator的是简称CUA的模型,全称的字面意思为电脑使用代理(Computer-Using Agent),是一种通过强化学习将OpenAI旗舰模型GPT-4o的视觉功能与高级推理相结合的模型。

经过训练,CUA可以像人类一样与图形用户界面(GUI)、即人们在屏幕上看到的按钮、菜单和文本字段进行交互。因此它能够灵活地执行数字任务,“无需使用特定操作系统或网页的API(应用程序编程接口)。”

OpenAI称,在浏览器使用和浏览器使用的基准测试中,CUA都取得了比之前最优效果模型(SOTA)更高的得分。

浏览器使用方面,在利用离线自托管开源网站模拟电子商务、在线商店内容管理 (CMS)、社交论坛平台等真实场景的WebArena测试中,CUA的成功率为58.1%,在亚马逊、GitHub和谷歌地图等在线实时网站上测试性能的WebVoyager⁠测试中,CUA的成功率为87%,不过后者的大多数任务都相对简单,前者相对更复杂。之前电脑使用SOTA在WebArena和WebVoyager⁠测试的成功率分别为36.2%和56%,之前网页浏览智能体SOTA的成功率分别为57.1%和87%。

电脑使用方面,在评估模型控制 Ubuntu、Windows 和 macOS 等完整操作系统能力的OSWorld⁠基准测试中,CUA 的成功率为38.1%。之前SOTA的成功率为22.0%。OpenAI指出,随着测试时间延长、即允许更多步骤时,CUA的成绩会提高。相比人类的测试水平、成功率72.4%,CUA还有很大的改进空间。

03



研究预览版首先在美上线

面向ChatGPT Pro用户

本周四OpenAI推出的是研究预览版Operator,它首先在美国市场上线,美国的用户可以通过每月订阅费200美元的ChatGPT Pro套餐使用Operator服务。

研究预览版的Operator可通过网站operator.chatgpt.com访问。OpenAI表示,希望将Operator纳入到旗下所有面向客户的ChatGPT服务中。

OpenAI表示,计划最终将Operator的功能推广到旗下ChatGPT Plus、Team 和Enterprise版。CEO Altman还称,Operator的功能“将很快在其他国家推出。遗憾的是,(在)欧洲需要一段时间。”

OpenAI同时警告,Operator“仍在学习和演化,可能会犯错误。例如,它目前面临创建幻灯片或管理日历等复杂界面的挑战。”

04



有人高呼大批专家智能体将至

有人认为没吸引力、不如专心做模型

最近不止一家媒体爆出OpenAI将推出Operator,比如本周稍早华尔街见闻提到,有媒体获悉,即将问世的出Operator能自动完成诸如餐厅预订、旅行规划等任务。用户可选择不同类型的任务,如餐饮、购物和旅行,并在小屏幕上查看操作过程。

对于本周四OpenAI正式官宣Operator,社交媒体平台X的网友褒贬不一。有人直接喊冲啊,有人哀叹一个月要花200美元才能用。

企业决策AI初创Instadeep的CEO Karim Beguir对Operator表示欢迎。他评论称,这种AI可以访问网站、截取屏幕截图、决定在哪里购买杂货或预订电影院的座位,无需特殊 API,AI智能体的时代已经到来,很快就会出现大批专家智能体。

而一条获得1000多个点赞的网友评论写道:“Operator一点吸引力都没有,这玩意应该是苹果的iOS来做,而不是OpenAI来做。OpenAI应该聚焦推出强大的模型,而不是和生态系统抢饭吃。”

  硬·AI   


*

(文:硬AI)

欢迎分享

发表评论