文章转载自「机器之心」。
1月 24 日,OpenAI 发布会,正式发布 agent 功能——Operator。
01
Operator 功能演示与技术概览
02
CUA 的工作原理
-
感知:计算机的屏幕截图被添加到模型的上下文中,提供计算机当前状态的视觉快照;
-
推理:使用思路链推理后续步骤,同时考虑当前和过去的屏幕截图和操作。这种「内心独白」通过使模型评估其观察结果、跟踪中间步骤并动态调整来提高任务性能; -
行动:执行操作(单击、滚动或键入),直到它决定任务已完成或需要用户输入。虽然它会自动处理大多数步骤,但 CUA 会寻求用户确认敏感操作,例如输入登录详细信息或响应 CAPTCHA 表单。
03
生态系统与用户
04
安全和隐私
-
接管模式:在向浏览器输入敏感信息时,Operator 会请求用户接管。在接管模式下,Operator 不会收集或截取用户输入的信息。 -
用户确认:在完成任何重要操作(例如提交订单或发送电子邮件)之前,Operator 会征求批准。 -
任务限制:Operator 会拒绝某些敏感任务,例如银行交易或需要高风险决策的任务,例如决定一份工作申请。 -
监视模式:在特别敏感的网站上,例如电子邮件或金融服务,Operator 会要求密切监督其行为,从而可让用户直接发现任何潜在的错误。
-
退出训练:用户可在 ChatGPT 设置中关闭「为所有人改进模型」,这样其 Operator 中的数据就不会用于训练模型。 -
透明的数据管理:用户可以在 Operator 设置的「隐私」部分下一键删除所有浏览数据并退出所有网站。Operator 中的过去对话也可以一键删除。
-
谨慎导航:Operator 在设计时就考虑了检测和忽视提示词注入攻击。 -
监控:有一个专门的「监控模型」来监视可疑行为,如果出现异常,可以暂停任务。 -
检测管道:OpenAI 部署了一个持续识别新威胁并快速更新保障措施的自动和人工审核流程。
-
通过 API 使用 CUA:OpenAI 表示很快就会通过 API 揭示驱动 Operator 的模型,以便开发者可以使用它来构建自己的 computer use 智能体。 -
增强功能:还将继续提高 Operator 处理更长、更复杂工作流程的能力。 让更多人可用:OpenAI 还计划将 Operator 扩展到 Plus、Team 和 Enterprise 用户。并且该公司还表示,一旦在安全性与大规模可用性方面建立信心后,就会将该功能直接集成到 ChatGPT 中,从而实现无缝的实时和异步任务执行。
参考链接:
(文:Founder Park)