据 TechCrunch 报道,OpenAI 可能即将发布一款 AI 工具,可以控制用户的电脑并代表用户执行操作。
Tibor Blaho,一位以准确泄露即将推出的 AI 产品而闻名的软件工程师,声称他发现了 OpenAI 长期以来传闻的 Operator 工具的证据。包括彭博社在内的出版物之前曾报道过 Operator,称其为一个“ Agent ”系统,能够自主处理编写代码和预订旅行等任务。
根据 The Information 报道,OpenAI 计划在一月发布 Operator。Blaho 本周末发现的代码为该报道增添了可信度。
OpenAI 的ChatGPT客户端在 macOS 上获得了选项,目前隐藏的选项可以定义“切换操作员”和“强制退出操作员”的快捷键,Blaho 说。Blaho 还提到,OpenAI 在其网站上添加了对操作员的引用——尽管这些引用尚未公开可见。
根据 Blaho 的说法,OpenAI 的网站上还包含尚未公开的表格,比较了 Operator 与其他计算机使用的 AI 系统的性能。这些表格可能只是占位符。但如果这些数字是准确的,它们表明 Operator 在某些任务上并不是 100%可靠。
在 OSWorld 上,一个试图模拟真实计算机环境的基准测试中,“OpenAI 计算机使用 Agent (CUA)”——可能是驱动 Operator 的 AI 模型——得分为 38.1%,领先于 Anthropic 的计算机控制模型,但远低于人类的 72.4%得分。OpenAI CUA 在 WebVoyager 上超过了人类表现,该测试评估 AI 在浏览和与网站互动的能力。但根据泄露的基准测试,该模型在另一个基于网络的基准测试 WebArena 上未能达到人类水平的得分。
如果泄露信息可信,Operator 在执行人类可以轻松完成的任务时也遇到了困难。在一项测试中,Operator 被要求注册一个云服务提供商并启动一个虚拟机,成功率仅为 60%。在创建比特币钱包的任务中,Operator 的成功率仅为 10%。
OpenAI 即将进入 AI Agent 领域,此时包括前面提到的 Anthropic、Google等竞争对手正在争夺这一新兴市场。AI Agent 可能是风险和投机的,但科技巨头们已经将其宣传为 AI 的下一个大事件。根据分析公司 Markets and Markets 的说法,到 2030 年,AI Agent 市场的价值可能达到 471 亿美元。
今天的智能体相当原始。但一些专家对它们的安全性表示担忧,尤其是在技术迅速进步的情况下。
泄露的图表之一显示,Operator 在选定的安全评估中表现良好,包括尝试让系统执行“非法活动”和搜索“敏感个人数据”的测试。据报道,安全测试是 Operator 开发周期长的原因之一。在最近的一条 X 帖子中,OpenAI 联合创始人 Wojciech Zaremba 批评 Anthropic 发布了一款他声称缺乏安全缓解措施的 Agent 。
“我只能想象如果 OpenAI 发布类似的内容会引发怎样的负面反应,”Zaremba写道。
(文:Z Potentials)