刚刚,OpenAI开源了两个Agent项目,手搓Manus时代来袭~

OpenAI举行了一场面向开发者的直播,推出Agent开发套件,帮助开发人员构建可靠且强大的 AI Agents:
  • 内置工具(Built-in tools:包括网页搜索、文件搜索以及电脑使用(Computer Use)
  • Responses API :新的响应API,将 Chat Completions API 的简单性与 Assistants API 的工具使用功能相结合,用于构建Agents
  • Agents SDK:协调Single-Agent和Multi-Agent工作流程
  • 监控工具:集成可观察性工具跟踪和检查Agent工作流程的执行情况
其中:Agents SDK是开源的,并且还开源了一个Computer Using Agent项目
1、Agents SDK项目
OpenAI Agents SDK 是一个轻量级但功能强大的框架,用于构建多智能体工作流。
核心概念:
  • Agent(智能体):经过指令配置的大型语言模型(LLMs),配备工具、防护栏和交接功能。

  • Handoffs(交接):允许智能体将特定任务的控制权移交给其他智能体。

  • Guardrails(防护栏):可配置的安全检查,用于输入和输出验证。

  • Tracing(追踪):内置的智能体运行跟踪功能,允许你查看、调试和优化你的工作流。


2、Computer Using Agent 项目
OpenAI提供了一个使用 OpenAI API构建计算机使用Agent(CUA:Computer Using Agent) 的示例应用程序:

  • 计算机使用工具以连续循环的方式运行。它发送计算机操作(例如click(x,y)或type(text)),代码会在计算机或浏览器环境中执行这些操作,然后将结果的屏幕截图返回给模型。
  • 通过这种方式,代码可以使用计算机界面模拟人类的动作,而模型则可以利用屏幕截图来了解环境的状态并提出下一步的动作。
  • 通过此循环,可以自动执行许多需要点击、输入、滚动等操作的任务。例如,预订航班、搜索产品或填写表格。
Agents Blog: https://openai.com/index/new-tools-for-building-agentsBuilt-in tools: https://platform.openai.com/docs/guides/tools?api-mode=responsesResponses API: https://platform.openai.com/docs/api-reference/responsesAgents SDK项目:https://github.com/openai/openai-agents-pythonComputer Using Agent项目:https://github.com/openai/openai-cua-sample-app

(文:PaperAgent)

欢迎分享

发表评论