语音转文本归档

OpenAI 发布新一代音频模型 API：打造更智能的语音助手

2025年3月21日11时作者每日AI新工具

2025年3月，OpenAI发布新一代音频模型API，包括改进的语音转文本和文本转语音模型。新模型在准确性和噪声消除方面表现出色，并提供更强的可控性定制选项。开发者可通过API和集成的Agent SDK轻松访问这些功能。

2025年3月21日8时作者 APPSO

OpenAI发布全新一代音频模型，包括语音转文本和文本转语音功能。gpt-4o-transcribe单词错误率显著降低，gpt-4o-mini-tts支持可引导性合成。定价分别为每分钟0.006美元与0.015美元。

2025年3月21日8时作者 AI寒武纪

OpenAI发布了三种新的先进音频模型：两款语音转文本模型表现优于Whisper，新TTS模型可教AI说话。为了让开发者构建强大的‘语音智能体’，OpenAI推出了三项重要功能：全新语音转文本模型、文本转语音模型和升级版Agent SDK。

2025年2月27日16时作者 Z Potentials

ElevenLabs筹集1.8亿美元支持其首个独立语音转文本模型Scribe，旨在与竞争对手如Gladia、Speechmatics等竞争。该模型在超过99种语言中表现优异，已在多家企业提供服务，并正进军语音检测领域。