超出想象!DeepSeek V3小更新:实测强到离谱,胜过R1,毫不逊色Claude 3.7
Sam Altman 推出的 DeepSeek v3 版本在编程能力和前端表现方面超越了 Claude 3.7,并且没有做任何宣传就上传至 Hugging Face。实测显示,DeepSeek v3 在多个任务上的表现都非常出色,包括赛朋克风格的贪吃蛇游戏和天气卡片生成任务。
Sam Altman 推出的 DeepSeek v3 版本在编程能力和前端表现方面超越了 Claude 3.7,并且没有做任何宣传就上传至 Hugging Face。实测显示,DeepSeek v3 在多个任务上的表现都非常出色,包括赛朋克风格的贪吃蛇游戏和天气卡片生成任务。
Claude 模型新增 ‘think tool’ 功能,可在生成答案过程中暂停思考并整理信息。Anthropic 官方称其特别适合处理信息过载、规则繁琐及步步为营等复杂场景。通过 JSON 配置简单集成到应用中,并在 T-Bench 和 SWE-Bench 测试中证明了显著提升性能。
新加坡国立大学与海航人工智能实验室团队提出了一篇关于R1-Zero-like训练的新论文。文章详细分析了基座模型和强化学习(RL)两大基石,并指出现有方法可能存在偏见问题,提出了改进方案。
腾讯正式推出推理模型混元-T1,基于TurboS基座打造,具备强大的长文理解和加速能力。通过强化学习和大规模训练,T1能有效提升推理性能,并且在多个基准测试中表现优异。
OpenAI发布了三种新的先进音频模型:两款语音转文本模型表现优于Whisper,新TTS模型可教AI说话。为了让开发者构建强大的‘语音智能体’,OpenAI推出了三项重要功能:全新语音转文本模型、文本转语音模型和升级版Agent SDK。
波士顿动力Atlas人形机器人通过与AI机构RAI Institute的合作,利用动作捕捉服和强化学习技术,模仿真人动作。这项研究展示了大量模拟数据对机器人的训练效果,并强调了实际应用之间的差距需要深入探讨。
英伟达发布GR00T N1开源人形机器人通用模型,参数量为20亿。利用多样化物理动作数据集进行训练,包括真实人形机器人遥操作、大规模仿真数据及‘幻觉’生成的数据。展示了其在家庭和工业环境中的卓越性能提升,并提供详细的预训练策略与资源支持。
Claude 3.7 Max 是 Cursor 推出的新模型,专为硬核开发者设计。它具有更高的上下文窗口、更多的工具调用限制以及更智能的代码理解和生成能力,价格按用量计费。适合处理复杂代码项目和精细代码维护的开发者。