OpenAI最新音频模型一手实测!可癫可御可定制,中文有点翻车

OpenAI推出全新一代音频模型gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,大幅提高单词识别错误率与语言准确性。同时发布的新语音转文本模型在多个基准测试上超过whisper模型,在低资源语言上的表现尤其突出。不过中文场景的音频生成效果仍需改进。

OpenAI o3-mini被曝大量使用中文推理!全世界AI都要学中国话了?

国外网友发现o3-mini-high在思考过程中经常出现中文!有人猜测是否借鉴了DeepSeek。对此,网友纷纷质问奥特曼和OpenAI:究竟为何使用中文?专家认为这可能与模型处理语言的方式有关。不过目前「语言混杂」问题仍需解决。

阿里开源的声音克隆TTS重磅升级,CosyVoice2支持流式输出,更加流畅自然,用户。

阿里的CosyVoice2迎来重大升级,通过流式合成输出大幅降低语音识别和合成的延迟,提升软件、硬件交互体验。该模型支持多种语言及情感控制功能,已在多个开源项目中得到应用。