OpenAI 发布新型音频模型,听起来比以往任何时候都更像人类

OpenAI发布了两款新的音频模型GPT-4o-transcribe和GPT-4o-mini-transcribe,旨在提升语音转文本的准确性,并引入可操控性文本转语音功能。此举为自然、直观的口语对话迈出了重要一步。

DeepSeek R1-Zero 内幕大公开:原来“顿悟时刻”早就来了?还有 GRPO 的秘密

新加坡国立大学与海航人工智能实验室团队提出了一篇关于R1-Zero-like训练的新论文。文章详细分析了基座模型和强化学习(RL)两大基石,并指出现有方法可能存在偏见问题,提出了改进方案。

停止过度思考!一篇关于高效Reasoning的综述来了~

MLNLP社区是国内外知名的人工智能学术社区,其愿景是促进机器学习与自然语言处理领域内的交流合作。论文《Stop Overthinking》探讨了高效推理的方法及其在自动驾驶和医疗诊断等领域的应用挑战,提出模型优化、动态压缩和提示工程三大方向的研究进展及未来展望。

重磅!OpenAI推出语音智能体全家桶:可以实现前所未有的精细化教AI说话

OpenAI发布了三种新的先进音频模型:两款语音转文本模型表现优于Whisper,新TTS模型可教AI说话。为了让开发者构建强大的‘语音智能体’,OpenAI推出了三项重要功能:全新语音转文本模型、文本转语音模型和升级版Agent SDK。