OpenAI没做到,DeepSeek搞定了!开源引爆推理革命 下午4时 2025/05/24 作者 新智元 名噪一时。而强化学习算法GRPO,是背后最大的功臣之一。然而,开源界对强化学习算法的探索并没有终结。
思考 RLHF 的本质以及主流算法思路 下午2时 2025/05/03 作者 机器学习算法与自然语言处理 业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进
2024图灵奖颁给强化学习两位奠基人!ChatGPT、DeepSeek背后功臣戴上迟来的冠冕 上午8时 2025/03/06 作者 新智元 Andrew Barto,获得了2024年图灵奖。有人说,图灵奖终于颁给了强化学习,这是迟到的「奖励
28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理 下午4时 2025/01/27 作者 新智元 新智元报道 编辑:KingHZ 【新智元导读】 2028年,预计高质量数据将要耗尽,数据Scalin