AI语音平台 Deepgram 发布面向开发者的 Saga Voice OS

总部位于加利福尼亚州旧金山的语音人工智能平台 Deepgram 宣布推出 Deepgram Saga,这是一个专为开发人员设计的语音操作系统(Voice OS)。Deepgram 的新 Saga 语音操作系统将自然语音转化为跨工具的工作流执行,提升了能够通过语音进行交互的人们的生产力。Saga OS 也标志着语音优先计算的更广泛趋势,通过将自然语音转化为跨开发堆栈的可操作、多步骤工作流来实现。



Deepgram 成立于 2015 年,最初在中国的一个暗物质探测器中进行波形分析的机器学习研究。首席执行官兼联合创始人斯科特·斯蒂芬森(Scott Stephenson)和他的团队后来在密歇根大学探索音频分析的深度学习。看到语音转文本市场的空白,他们利用端到端的深度学习构建了 Deepgram。如今,Deepgram 是一个专注于企业用例的完整语音人工智能平台,提供语音转文本(STT)、文本转语音(TTS)以及完整的语音转语音(STS)功能,所有这些功能都由 Deepgram 的企业级运行时提供支持。


据这家加州公司称,超过 200,000 名开发人员使用 Deepgram 的语音原生基础模型进行开发——这些模型可以通过云 API 或自托管/本地 API 访问——原因在于其准确性、低延迟和定价。客户包括构建语音产品或平台的技术独立软件供应商(ISV)、与大型企业合作的联合销售合作伙伴,以及解决内部用例的企业,在此过程中处理了超过 5 万年的音频并转录了超过 1 万亿个单词。


Deepgram 是语音与人工智能融合的一个有趣案例,其创始人坚信语音原生控制可以降低开发人员的门槛,尤其是对于那些有身体或认知障碍的开发人员,提供了一条从想法到执行的免提、无缝的路径。



Deepgram 的新 Saga 语音操作系统将这一概念扩展到一个通用的语音界面,直接嵌入开发人员的工作流中,允许用户通过自然语音控制他们的技术堆栈。与将开发人员从工作流中拉出的传统语音助手不同,Saga 基于现有的工具之上,将粗糙的想法转化为精确的人工智能编码提示,通过模型上下文协议(MCP)跨平台执行多步骤工作流,并消除了现代开发中导致碎片化的频繁上下文切换。


“在当今的开发环境中,工程师通常需要在多个显示器上操作 8 个以上的工具,不断地将想法转化为点击操作,将粗糙的想法转化为过于具体化的提示,将上下文转化为命令。这种碎片化对生产力造成了‘隐形税’——时间浪费在切换窗口、寻找窗口以及在编码、测试和部署工具之间手动导航上。Saga 通过提供一个语音原生人工智能界面消除了这种摩擦,该界面可以解释开发人员的意图,并在整个技术堆栈中执行操作,使开发人员在构建软件时能够保持流畅的工作状态,”Deepgram 首席执行官兼联合创始人斯科特·斯蒂芬森(Scott Stephenson)解释道。



“你说话的速度比打字快,阅读的速度比写作快。现代开发人员堆栈尚未将人工智能重新构想为一种一流的操作模式,”Stephenson 补充道。“开发人员花费了太多的精力在工具之间切换,而不是专注于构建。Saga 通过将语音转化为通用界面改变了这一点——你说出你想要做的事情,Saga 就会在你的整个工作流中实现。它不是另一个需要在众多标签或面板中使用的人工智能工具,强迫你以特定的方式工作;它是你的新的上下文操作系统,以语音的速度运行。”

据 Deepgram 介绍,Saga 解决了人工智能原生开发人员和早期建设者面临的核心挑战,他们需要快速行动,而不能陷入工具的复杂性中。提供开发人员友好的生态系统,无论是使用 Cursor 或 Windsurf 进行氛围编码,在 Linear、Asana、Jira 或 Slack 中保持状态更新,从 Figma 设计中提取 CSS,还是在 Google Docs、Gmail 或 Google Sheets 中执行日常运营任务,Saga 都与开发人员每天熟悉、喜爱和使用的工具并存。


开发人员还可以说出模糊的想法,比如“构建一个对表情符号做出反应的 Slack 机器人”,Saga 将这些想法转化为像 Cursor 这样的工具的清晰、一击即中的提示,消除了“氛围编码”的试错周期。而且,一个简单的语音命令,如“运行测试、提交更改、部署并通知团队”,就会在整个开发堆栈中触发协调一致的操作——无需标签页、手动命令或上下文切换。


Saga OS 捕捉意识流思维,并将其转化为结构化的文档、工单或 PR 描述,使开发人员能够在不打断思路的情况下,像与橡皮鸭对话一样轻松地完成清晰的文档编写。而不是要求开发人员切换到单独的人工智能聊天窗口,Saga 在现有开发工具的基础上内联显示答案并执行操作。开发人员甚至可以说出请求,如“给我列出上周注册的前 10 名用户”,并立即获得 SQL 或 JavaScript 代码片段,无需在谷歌上搜索语法或编写样板代码。


Saga 是为依赖人工智能代理、每天使用像 Cursor 和 Windsurf 这样的工具,并将工作流视为可编程操作系统的新一代技术用户而专门设计的。该平台通过模型上下文协议(MCP)和其他标准接口与现有的开发工具无缝集成,确保团队可以在不破坏当前设置的情况下采用 Saga。


“Saga 代表了一种根本性的转变——在传统语音助手结束的地方接棒,并将语音作为一种界面提供,”Deepgram 高级产品经理沙伦·叶(Sharon Yeh)说。“我们没有要求开发人员学习新的命令或更换他们的工具。我们为他们提供了一种自然的方式来编排完整的工作流,将语音转化为从想法到执行的最快路径。”


(文:AI音频时代)

发表评论