重磅!OpenAI推出语音智能体全家桶:可以实现前所未有的精细化教AI说话
OpenAI发布了三种新的先进音频模型:两款语音转文本模型表现优于Whisper,新TTS模型可教AI说话。为了让开发者构建强大的‘语音智能体’,OpenAI推出了三项重要功能:全新语音转文本模型、文本转语音模型和升级版Agent SDK。
OpenAI发布了三种新的先进音频模型:两款语音转文本模型表现优于Whisper,新TTS模型可教AI说话。为了让开发者构建强大的‘语音智能体’,OpenAI推出了三项重要功能:全新语音转文本模型、文本转语音模型和升级版Agent SDK。
波士顿动力Atlas发布侧空翻视频引发关注,宇树机器人宇树G1实现凌空侧空翻。对比发现,Atlas在执行侧空翻时仍需双手撑地,而G1则完全凌空。Atlas展示了多种动作,包括向前、阴暗爬行和类似人类的踢踏舞,但其动作流畅度超乎想象。
波士顿动力Atlas人形机器人通过与AI机构RAI Institute的合作,利用动作捕捉服和强化学习技术,模仿真人动作。这项研究展示了大量模拟数据对机器人的训练效果,并强调了实际应用之间的差距需要深入探讨。
AI 生态正经历新一轮智能体革命。大模型如何协同学习?大模型如何自我进化?新型强化学习技术如何赋能
小米大模型团队通过微调阿里Qwen2-Audio-7B模型,结合DeepSeek-R1的GRPO算法,在MMAU评测集上实现了64.5%的准确率,显著提升31%,接近人类专家水平。