重磅！OpenAI推出语音智能体全家桶：可以实现前所未有的精细化教AI说话

就在刚刚，OpenAI 发布了一系列新模型和工具，具体来说OpenAI在API 中推出三种新的先进音频模型：

🗣️ 两种语音转文本模型 – 表现优于 Whisper
💬 新的 TTS （文本转语音）模型——你可以教AI如何说话

核心只有一个：让开发者轻松构建强大的「语音智能体」！

在直播中，据OpenAI 平台负责人 Olivier Godement 说他们一直在积极构建 AI 智能体，而现在，他们要将重点从文本拓展到语音

为什么是语音？ Olivier 认为，语音是人类最自然的交互方式，相较于读写，语音沟通更加便捷和人性化。因此，打造可靠、精准、灵活的语音智能体，将极大地拓展 AI 的应用场景

第一时间给大家划个重点

三大模型齐发力，打造「声控AI」基石

为了实现这一愿景，OpenAI 祭出了三大法宝：

1.两款全新「语音转文本」模型：GPT-4o-transcribe 和 GPT-4o-mini-transcribe

这两款模型号称“地表最强”，性能全面超越之前的 Whisper 模型，并且在各种语言的转录准确率上都实现了质的飞跃。这意味着，AI 听得更清、更准了！

2.全新「文本转语音」模型：GPT-4o-mini-tts

这款模型首次让开发者可以精细控制 AI 的发声方式，不仅能决定 AI 说什么，更能控制 AI 怎么说！语调、情感，都能由你掌控，打造更富有人性的声音体验

为了让大家更容易得使用这个模型，OpenAI为这个模型建了新的网站，http://OpenAI.fm,一个供开发人员尝试 OpenAI API 中的新文本转语音模型的交互式演示，OpenAI已经预先生成了各种演示文本，可以选择不同的声音，不同的情绪来表达你的文本，你也可以自己输入文本，体验选择不同声音和情绪来表达

3.升级版 Agent SDK

为了让开发者更便捷地构建语音智能体，OpenAI 对之前发布的 Agent SDK 进行了重大更新，让文本智能体“一键升级”为语音智能体成为可能！这次升级亮点颇多：

语音能力加持： Agent SDK 深度整合了 OpenAI 最新的「语音转文本」和「文本转语音」模型，开发者无需复杂配置，即可为智能体赋予“耳朵”和“嘴巴”。

流式处理优化： 升级后的 SDK 支持双向流式传输，音频输入和语音输出都更加实时，大幅提升了语音交互的流畅性。

开箱即用，快速上手： Agent SDK 提供了丰富的示例代码和详尽的文档，即使是新手开发者也能快速上手，将文本智能体轻松转化为语音智能体

调试利器： Agent SDK 与 OpenAI 调试 UI 无缝集成，开发者可以直观地追踪语音交互全过程，分析音频输入、文本转录、模型推理、语音合成等各个环节，Debug 效率直线提升！

构建语音智能体，两种主流方案

OpenAI 的专家 Jeff Harris 在直播中分享了构建语音智能体的两种主要方法：

方法一：实时 API 直连「语音-语音」模型

这种方式更加前沿，直接使用「语音-语音」模型，让 AI 直接理解音频并输出语音，速度更快，体验更流畅。这也是 ChatGPT 高级语音模式背后的技术

方法二：链式调用音频模型与文本模型

这是一种更易上手、更可靠的方案，也是 OpenAI 此次重点推荐的方式。它通过以下步骤实现：

1. 语音转文本模型 (Speech-to-Text)： 将用户语音转化为文本。
2. 文本大模型 (Text-based LLM)： 例如 GPT-4o，理解文本并生成合适的回复。
3. 文本转语音模型 (Text-to-Speech)： 将文本回复转化为自然流畅的语音。

Jeff 强调，链式方案的优势在于：

• 模块化： 各个环节的模型可以灵活替换，选择最适合的组件。
• 高可靠性： 文本模型的智能程度依然是目前的“黄金标准”，链式方案能保证更高的可靠性。
• 易上手： 开发者可以基于已有的文本智能体项目，快速添加语音功能

模型背后的技术

使用真实音频数据集进行预训练

新音频模型基于 GPT‑4o 和 GPT‑4o-mini 架构，并在专门的以音频为中心的数据集上进行了广泛的预训练，这对于优化模型性能至关重要。这种有针对性的方法可以更深入地洞察语音细微差别，并在与音频相关的任务中实现出色的性能

先进的蒸馏方法

增强蒸馏技术，使知识从最大的音频模型转移到更小、更高效的模型。利用先进的自我对弈方法，我们的蒸馏数据集有效地捕捉了真实的对话动态，复制了真正的用户-助手互动。这有助于小型模型提供出色的对话质量和响应能力

强化学习范式

对于语音转文本模型，集成了强化学习 (RL-heavy) 重度范式，将转录准确度推向了最先进的水平。这种方法大大提高了准确度并减少了幻觉，使语音转文本解决方案在复杂的语音识别场景中具有极强的竞争力

性能炸裂，价格亲民

GPT-4o 系列「语音转文本」模型的惊人性能：在 FLEURS 基准测试中，错误率远低于上一代 Whisper 模型，真正做到了“更上一层楼”

更令人惊喜的是，价格方面也十分良心：

• GPT-4o-transcribe： 每分钟 0.6 美分，与 Whisper 模型价格一致
• GPT-4o-mini-transcribe： 每分钟仅需 0.3 美分，性价比更高！
• GPT-4o-mini-tts： 文本转语音模型，每分钟 1 美分，经济实惠

参考：

https://openai.com/index/introducing-our-next-generation-audio-models/

https://www.youtube.com/watch?v=lXb0L16ISAc

⭐

（文：AI寒武纪）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

三大模型齐发力，打造「声控AI」基石

构建语音智能体，两种主流方案

模型背后的技术

性能炸裂，价格亲民

发表评论 取消回复

发表评论取消回复