OpenAI 发布 Operator 智能体,“hybrid Internet”升级拉开帷幕

Computer Use赛道拥挤,有创业黑马、也有巨头大佬,现在OpenAI也杀了进来。

Eko:电脑、浏览器都能操作的前端Agent框架,自然语言就能操控

OpenAI 今日重磅发布了名为 Operator 的智能体系统,这是首个能够像人类一样自主操作电脑的 AI 系统。该系统标志着人工智能向 AGI 迈出了关键一步。

Operator 由”计算机使用智能体”(Computer-Using Agent, CUA)提供支持,将 GPT-4 的视觉能力与高级推理相结合。

它能够直接与图形用户界面(GUI)交互,无需依赖特定 API,可以执行点击、输入、滚动等基本操作。

在实际演示中,Operator 展示了令人印象深刻的能力:

  • 可以自动订餐、购物和预订机票
  • 能够理解手写购物清单并完成网上采购
  • 可以帮助用户搜索和预订活动门票
  • 在遇到问题时能够自我纠正和调整策略

在多个基准测试中,CUA 取得了突破性成果:在 WebArena 上达到 58.1%的成功率,在 WebVoyager 上更是达到 87%的完成率。虽然与人类表现(72.4%和 78.2%)相比仍有差距,但已显著超越此前的技术水平。

为确保安全性,OpenAI 为Operator 设置了多重保护机制:

  • 敏感操作需要用户确认
  • 用户可随时接管控制
  • 系统会自动识别和阻止有害请求

目前 Operator 仅向美国 Pro 用户开放测试。 OpenAI 表示未来将扩展到更多用户群体,并计划通过 API 开放 CUA 能力,让开发者能够构建自己的计算机智能体。

各大巨头纷纷下场,新的人机交互模式将发生颠覆性变化,互联网的用户不再只是人类,成千上万的智能体或将成为新的主体,这将带来从外到里的全面改造适配。正如 OpenAI 总裁 Greg Brockman 所说:”2025 年将是智能体之年。”我们一起来见证新的“hybrid Internet”诞生。

参考:

https://openai.com/index/introducing-operator/

https://openai.com/index/computer-using-agent/

(文:AI工程化)

欢迎分享

发表评论