最新发现!每参数3.6比特,语言模型最多能记住这么多 上午8时 2025/06/05 作者 机器之心 能记住多少信息?Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示: 每个 参数大 约
出人意料!DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了 下午11时 2025/02/21 作者 机器之心 Group Relative Policy Optimization)非常关键,是 DeepSeek