OpenAI最新音频模型一手实测!可癫可御可定制,中文有点翻车
OpenAI推出全新一代音频模型gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,大幅提高单词识别错误率与语言准确性。同时发布的新语音转文本模型在多个基准测试上超过whisper模型,在低资源语言上的表现尤其突出。不过中文场景的音频生成效果仍需改进。
OpenAI推出全新一代音频模型gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,大幅提高单词识别错误率与语言准确性。同时发布的新语音转文本模型在多个基准测试上超过whisper模型,在低资源语言上的表现尤其突出。不过中文场景的音频生成效果仍需改进。
同事推荐DeepSeek后节约她两天工作量,Qwen分享如何利用DeepSeek和Kimi替代传统工作方法,并设计了一整套工作流以实现反推提示词及自动输出图片到自媒体平台的功能。
国外网友发现o3-mini-high在思考过程中经常出现中文!有人猜测是否借鉴了DeepSeek。对此,网友纷纷质问奥特曼和OpenAI:究竟为何使用中文?专家认为这可能与模型处理语言的方式有关。不过目前「语言混杂」问题仍需解决。
近年来,多模态大语言模型(MLLMs)主要聚焦在视觉和文本模态的融合上,对语音的关注较少。然而,语音
阿里的CosyVoice2迎来重大升级,通过流式合成输出大幅降低语音识别和合成的延迟,提升软件、硬件交互体验。该模型支持多种语言及情感控制功能,已在多个开源项目中得到应用。