数据集大小归档 - 每时AI

最新发现！每参数3.6比特，语言模型最多能记住这么多

上午8时 2025/06/05 作者机器之心

能记住多少信息？Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示：
每个
参数大
约

出人意料！DeepSeek-R1用的GRPO其实非最优？规模化强化学习训练用PPO就够了

下午11时 2025/02/21 作者机器之心

Group Relative Policy Optimization）非常关键，是 DeepSeek