中文归档 - 每时AI

OpenAI最新音频模型一手实测！可癫可御可定制，中文有点翻车

下午4时 2025/03/21 作者智东西

OpenAI推出全新一代音频模型gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts，大幅提高单词识别错误率与语言准确性。同时发布的新语音转文本模型在多个基准测试上超过whisper模型，在低资源语言上的表现尤其突出。不过中文场景的音频生成效果仍需改进。

AI替身：一个工作流，两个DeepSeek

下午12时 2025/02/08 作者路过银河AI

同事推荐DeepSeek后节约她两天工作量，Qwen分享如何利用DeepSeek和Kimi替代传统工作方法，并设计了一整套工作流以实现反推提示词及自动输出图片到自媒体平台的功能。

OpenAI o3-mini被曝大量使用中文推理！全世界AI都要学中国话了？

下午11时 2025/02/04 作者新智元

国外网友发现o3-mini-high在思考过程中经常出现中文！有人猜测是否借鉴了DeepSeek。对此，网友纷纷质问奥特曼和OpenAI：究竟为何使用中文？专家认为这可能与模型处理语言的方式有关。不过目前「语言混杂」问题仍需解决。

Github揽获1.6K星！南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互

下午4时 2025/01/09 作者 PaperWeekly

近年来，多模态大语言模型（MLLMs）主要聚焦在视觉和文本模态的融合上，对语音的关注较少。然而，语音

阿里开源的声音克隆TTS重磅升级，CosyVoice2支持流式输出，更加流畅自然，用户。

下午7时 2024/12/19 作者开源AI项目落地

阿里的CosyVoice2迎来重大升级，通过流式合成输出大幅降低语音识别和合成的延迟，提升软件、硬件交互体验。该模型支持多种语言及情感控制功能，已在多个开源项目中得到应用。