Computer Use赛道拥挤,有创业黑马、也有巨头大佬,现在OpenAI也杀了进来。
Eko:电脑、浏览器都能操作的前端Agent框架,自然语言就能操控
OpenAI 今日重磅发布了名为 Operator 的智能体系统,这是首个能够像人类一样自主操作电脑的 AI 系统。该系统标志着人工智能向 AGI 迈出了关键一步。
Operator 由”计算机使用智能体”(Computer-Using Agent, CUA)提供支持,将 GPT-4 的视觉能力与高级推理相结合。
它能够直接与图形用户界面(GUI)交互,无需依赖特定 API,可以执行点击、输入、滚动等基本操作。
在实际演示中,Operator 展示了令人印象深刻的能力:
- 可以自动订餐、购物和预订机票
- 能够理解手写购物清单并完成网上采购
- 可以帮助用户搜索和预订活动门票
- 在遇到问题时能够自我纠正和调整策略
在多个基准测试中,CUA 取得了突破性成果:在 WebArena 上达到 58.1%的成功率,在 WebVoyager 上更是达到 87%的完成率。虽然与人类表现(72.4%和 78.2%)相比仍有差距,但已显著超越此前的技术水平。
为确保安全性,OpenAI 为Operator 设置了多重保护机制:
- 敏感操作需要用户确认
- 用户可随时接管控制
- 系统会自动识别和阻止有害请求
目前 Operator 仅向美国 Pro 用户开放测试。 OpenAI 表示未来将扩展到更多用户群体,并计划通过 API 开放 CUA 能力,让开发者能够构建自己的计算机智能体。
各大巨头纷纷下场,新的人机交互模式将发生颠覆性变化,互联网的用户不再只是人类,成千上万的智能体或将成为新的主体,这将带来从外到里的全面改造适配。正如 OpenAI 总裁 Greg Brockman 所说:”2025 年将是智能体之年。”我们一起来见证新的“hybrid Internet”诞生。
参考:
https://openai.com/index/introducing-operator/
https://openai.com/index/computer-using-agent/
(文:AI工程化)