OpenAI 的 Realtime API 确实是太强。
低延迟、多模态的体验让很多开发者想快速用起来。
毕竟25年是AI应用爆发的一年。
那想有更多更好用的AI功能,基础就是把这些API玩明白。
OpenAI官方开源了一个项目,能让用户在20分钟内做出一个实时语音Agent应用。
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)
项目简介
Realtime API Agents 是基于 Realtime API 构建的高级智能模式演示项目。它展示了按定义的代理图进行的顺序代理交接、向更智能模型的后台升级,以及引导模型遵循状态机等特性。这是个 Next.js TypeScript 应用,安装依赖、添加 API 密钥,启动服务器就能运行。通过配置不同的代理,可在 20 分钟内快速搭建多代理实时语音应用原型。
DEMO
中英互译的帮大家整理好了。
-
11:04:17 AM greeter – 上午 11:04:17,问候代理
-
Hello! Would you like a Haiku today? – 你好!今天你想要一首俳句吗?
-
yes please – 好的,麻烦了
-
11:04:21 AM function call: transferAgents – 上午 11:04:21,函数调用:转移代理
-
function call: transferAgents response – 函数调用:转移代理响应
-
11:04:21 AM haiku – 上午 11:04:21,俳句代理
-
Hello! Please give me a topic, and I’ll create a Haiku for you. – 你好!请给我一个主题,我会为你创作一首俳句。
-
11:04:27 AM AGI – 上午 11:04:27,AGI(用户输入的主题)
-
Future mind ascends, Artificial pathways grow, Human dreams entwined. – 未来心智攀升,人工路径延展,人类梦想交织。
主要内容
-
顺序智能体交接:根据定义的智能体图进行顺序智能体交接,灵感来源于 OpenAI Swarm。例如,在智能体交互过程中,一个智能体可以根据特定条件将用户请求转交给另一个智能体处理。
-
后台升级决策:对于高风险决策,会后台升级到更智能的模型,如 o1-mini。这有助于在关键决策场景下提供更准确和可靠的结果。
-
遵循状态机提示:提示模型遵循状态机,例如逐字符确认的方式准确收集用户的姓名和电话号码,以此来验证用户身份。
UI界面功能
-
智能体场景选择:用户可以在 “Scenario” 下拉菜单中选择不同的智能体场景,并通过 “Agent” 下拉菜单自动切换到特定的智能体。
-
对话记录和事件日志:对话记录显示在左侧,包括工具调用、工具调用响应和智能体更改等信息;事件日志显示在右侧,展示客户端和服务器事件,点击可查看完整的有效负载。
-
控制功能:在底部,用户可以进行断开连接、切换语音活动检测模式或按键通话(PTT)、关闭音频播放以及切换日志显示等操作。
项目链接
https://github.com/openai/openai-realtime-agents
关注「开源AI项目落地」公众号
(文:开源AI项目落地)