刚刚，OpenAI 一口气发布三个新模型！还为此做了一个新网站

就在刚刚，OpenAI 宣布在其 API 中推出全新一代音频模型，包括语音转文本和文本转语音功能，让开发者能够轻松构建强大的语音 Agent。

新产品的核心亮点概述如下

gpt-4o-transcribe (语音转文本)：单词错误率(WER)显著降低，在多个基准测试中优于现有 Whisper 模型

gpt-4o-mini-transcribe (语音转文本)：gpt-4o-transcribe 的精简版本，速度更快、效率更高

gpt-4o-mini-tts (文本转语音)：首次支持「可引导性」(steerability)，开发者不仅能指定「说什么」，还能控制「如何说」

据 OpenAI 介绍，新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练，能更好地捕获语音细微差别，减少误识别，大幅提升转录可靠性。

因此，gpt-4o-transcribe 更适用于处理口音多样、环境嘈杂、语速变化等挑战场景，比如客户呼叫中心、会议记录转录等领域。

gpt-4o-mini-transcribe 则基于 GPT-4o-mini 架构，通过知识蒸馏技术从大模型转移能力，虽然 WER（越低越好）稍高于完整版模型，但仍旧优于原有 Whisper 模型，更适合资源有限但仍需高质量语音识别的应用场景。

这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型，尤其在英语、西班牙语等多种语言上表现突出。

向左滑动查看更多内容

定价方面，GPT-4o-transcribe 与之前的 Whisper 模型价格相同，每分钟 0.006 美元，而 GPT-4o-mini-transcribe 则是前者的一半，每分钟 0.003 美元。

与此同时，OpenAI 还发布了新的 gpt-4o-mini-tts 文本转语音模型。首次让开发者不仅能指定「说什么」，还能控制「如何说」。

具体而言，开发者可以预设多种语音风格，如「平静」、「冲浪者」、「专业的」、「中世纪骑士」等，它还能根据指令调整语音风格，如「像富有同情心的客服 Agent 一样说话」，定价亲民，仅为每分钟 0.015 美元。

安全不能马虎，OpenAI 表示，gpt-4o-mini-tts 将接受持续监控，以保证其输出与预设的合成风格保持一致。

这些技术进步的背后源于 OpenAI 的多项创新：

新音频模型建立在 GPT-4o 和 GPT-4o-mini 架构之上，采用真实音频数据集进行预训练

应用 self-play 方法创建的蒸馏数据集的知识蒸馏方法，实现从大模型到小模型的知识转移

在语音转文本技术中融入强化学习(RL)，显著提升转录精度并减少「幻觉」现象。

在凌晨的直播中，OpenAI 向我们展示了一款 AI 时尚顾问 Agent 的应用案例。

当用户询问「我最近的订单是什么？」时，系统流畅回应：用户于 2 月 9 日订购的 Patagonia 短裤已发货，并在后续提问中准确提供了订单号「A.D. 507」。

值得一提的是，OpenAI 演示人员还介绍了两种构建语音 Agent 技术路径，第一种「语音到语音模型」采用端到端的直接处理方式。

系统可直接接收用户语音输入并生成语音回复，无需中间转换步骤。这种方式处理速度更快，已在 ChatGPT 的高级语音模式和实时 API 服务中得到应用，非常适合对响应速度要求极高的场景。

第二种「链式方法」则是本次发布会的重点。

它将整个处理流程分解为三个独立环节：首先使用语音转文本模型将用户语音转为文字，然后由大型语言模型(LLM)处理这些文本内容并生成回应文本，最后通过文本转语音模型将回应转为自然语音输出。

这种方法的优势在于模块化设计，各组件可独立优化；处理结果更稳定，因为文本处理技术通常比直接音频处理更成熟；同时开发门槛更低，开发者可基于现有文本系统快速添加语音功能。

OpenAI 还为这些语音交互系统提供了多项增强功能：

支持语音流式处理，实现连续音频输入和输出

内置噪音消除功能，提升语音清晰度。

语义语音活动检测，能够识别用户何时完成发言

提供追踪 UI 工具，方便开发者调试语音代理

目前，这些全新音频模型已向全球开发者开放。

你还可以在 http://OpenAI.fm 上体验并制作 gpt-4o-mini-tts 的相关音频，这个演示网站可谓是功能齐全，左下角是官方的预设模板，主要包括人设、语气、方言、发音等设置。

我们也实测了一段八百标兵奔北坡的绕口令，emmm，中文效果马马虎虎。

至于英文效果，听它念着诗歌，倒是挺有真人那味了，但无论是与此前走红的 Hume AI 亦或者 Sesame 相比，「肉耳可听」地还差点火候。

此外，OpenAI 推出了与 Agents SDK 的集成，进一步简化开发流程。

值得一提的是，OpenAI 还举办了一个广播比赛。用户可以在 http://OpenAI.fm 制作音频，接着使用 OpenAI.fm 上的「分享」按钮生成链接，然后在 X 平台分享。

最具创意的前三名将各获一台限量版 Teenage Engineering OB-4。音频时长建议控制在 30 秒左右，可在语音、表达、发音或剧本语调变化上尽情发挥创意。

实际上，今年 AI 的风向也在悄然发生变化，除了依旧强调智商，还多出一股趋势，强调情感。

GPT-4.5、Grok 3 的卖点是情商，写作更有创意，回应更个性化，而冷冰冰的机器人（智元机器人），也强调更拟人，主打一个情绪价值。

由于直接触及人类最本能的沟通方式，语音领域在这方面的发力则更加显著。

最近在硅谷走红的 Sesame AI 能够实时感知用户情绪，并生成情感共鸣的回应，迅速俘获了一大批用户的心。图灵奖得主 Yann Lecun 最近也在强调，未来的 AI 需要拥有情感。

而无论是 OpenAI 今天发布的全新语音模型、还是即将发布的 Meta Llama 4 都有意往原生语音对话靠拢，试图通过更自然的情感交互拉近与用户的距离，靠「人味」圈粉。

AI 需要有人味吗？长期以来，聊天机器人通常被定义为没有情感的工具，它们也会在对话中提醒你只是一个没有灵魂的模型。然而，我们却往往能从中解读出情绪价值，甚至不自觉地与之建立情感联结。

或许人类天生渴望被理解、被陪伴，哪怕这种理解来自一台机器。

我们正在招募伙伴

📮 简历投递邮箱
hr@ifanr.com

✉️ 邮件标题
「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

更多岗位信息请点击这里🔗

（文：APPSO）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复