强化学习归档 - 第18页共26页 - 每时AI

微软官宣All in智能体，SWE Agent首曝光！奥特曼预警2025编程巨变

下午4时 2025/02/07 作者新智元

下场All in智能体。刚刚，首个自主SWE智能体面世，不仅会主动改bug修复错误，还能自主提交PR

李飞飞S1成本仅50美元性能媲美Deepseek-R1，Logic RL成功重现了 DeepSeek R1 Zero 模型

下午12时 2025/02/07 作者每日AI新工具

本文介绍了5个AI和机器学习相关项目及工具：s1用于测试时间缩放提高推理效率；R1-V通过强化学习提升视觉语言模型泛化能力与训练效率；deepseek.cpp是一个基于C++的CPU-only推理实现，旨在为DeepSeek大语言模型提供支持；Logic RL成功复现了DeepSeek R1 Zero逻辑难题数据集上的问题解决能力；OpenHealth则是一款本地运行的AI健康助手。

OpenAI联创John Schulman，被曝火速离职Anthropic！刚刚入职6个月

下午4时 2025/02/06 作者新智元

OpenAI联创John Schulman离职加入竞争对手Anthropic，Schulman曾负责ChatGPT核心架构开发。

力压DeepSeek-R1！谷歌Gemini 2.0系列集体上新，全员跻身大模型竞技场前10

下午12时 2025/02/06 作者量子位

衡宇发自凹非寺
量子位 | 公众号 QbitAI
终于，谷歌DeepMind坐不住了，
出手就是

英伟达机器人跳APT舞惊艳全网，科比C罗完美复刻！CMU 00后华人共同一作

下午11时 2025/02/05 作者新智元

新智元报道
编辑：编辑部 HYs
【新智元导读】
机器人界「球星」竟被CMU英伟达搞出来了！科比后仰

超越DeepSeek V3！Ai2再祭开源杀器Tülu 3，强化学习打破性能瓶颈

下午11时 2025/02/05 作者新智元

艾伦人工智能研究所推出的新模型Tülu 3 405B在多项基准测试中超越Deepseek v3和GPT-4，采用全新后训练框架，并提供完全开源的数据、评估、训练代码及开发配方。

DeepSeek获四大国产GPU力挺！给全世界上了重要一课

下午11时 2025/02/04 作者智东西

饶毅：DeepSeek是鸦片战争以来，中国对人类最大的科技震撼。
作者 |
云鹏
编辑 |
漠影
智