OpenAI官方开源！能让用户在20分钟内做出一个实时语音Agent应用。

OpenAI 的 Realtime API 确实是太强。

低延迟、多模态的体验让很多开发者想快速用起来。

毕竟25年是AI应用爆发的一年。

那想有更多更好用的AI功能，基础就是把这些API玩明白。

OpenAI官方开源了一个项目，能让用户在20分钟内做出一个实时语音Agent应用。

项目简介

Realtime API Agents 是基于 Realtime API 构建的高级智能模式演示项目。它展示了按定义的代理图进行的顺序代理交接、向更智能模型的后台升级，以及引导模型遵循状态机等特性。这是个 Next.js TypeScript 应用，安装依赖、添加 API 密钥，启动服务器就能运行。通过配置不同的代理，可在 20 分钟内快速搭建多代理实时语音应用原型。

DEMO

中英互译的帮大家整理好了。

11:04:17 AM greeter – 上午 11:04:17，问候代理
Hello! Would you like a Haiku today? – 你好！今天你想要一首俳句吗？
yes please – 好的，麻烦了
11:04:21 AM function call: transferAgents – 上午 11:04:21，函数调用：转移代理
function call: transferAgents response – 函数调用：转移代理响应
11:04:21 AM haiku – 上午 11:04:21，俳句代理
Hello! Please give me a topic, and I’ll create a Haiku for you. – 你好！请给我一个主题，我会为你创作一首俳句。
11:04:27 AM AGI – 上午 11:04:27，AGI（用户输入的主题）
Future mind ascends, Artificial pathways grow, Human dreams entwined. – 未来心智攀升，人工路径延展，人类梦想交织。

主要内容

顺序智能体交接：根据定义的智能体图进行顺序智能体交接，灵感来源于 OpenAI Swarm。例如，在智能体交互过程中，一个智能体可以根据特定条件将用户请求转交给另一个智能体处理。
后台升级决策：对于高风险决策，会后台升级到更智能的模型，如 o1-mini。这有助于在关键决策场景下提供更准确和可靠的结果。
遵循状态机提示：提示模型遵循状态机，例如逐字符确认的方式准确收集用户的姓名和电话号码，以此来验证用户身份。

UI界面功能

智能体场景选择：用户可以在 “Scenario” 下拉菜单中选择不同的智能体场景，并通过 “Agent” 下拉菜单自动切换到特定的智能体。
对话记录和事件日志：对话记录显示在左侧，包括工具调用、工具调用响应和智能体更改等信息；事件日志显示在右侧，展示客户端和服务器事件，点击可查看完整的有效负载。
控制功能：在底部，用户可以进行断开连接、切换语音活动检测模式或按键通话（PTT）、关闭音频播放以及切换日志显示等操作。

项目链接

https://github.com/openai/openai-realtime-agents

关注「开源AI项目落地」公众号

（文：开源AI项目落地）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

OpenAI官方开源！能让用户在20分钟内做出一个实时语音Agent应用。

《OpenAI官方开源！能让用户在20分钟内做出一个实时语音Agent应用。》有1条评论

发表评论取消回复

《OpenAI官方开源！能让用户在20分钟内做出一个实时语音Agent应用。》有1条评论

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复