两阶段训练归档 - 每时AI

从打分器到思考者：RM-R1用推理重塑模型价值判断

下午11时 2025/05/31 作者机器之心

言模型的后训练阶段，奖励模型承担着桥接模型行为与人类价值的重要职责；但现有模型往往只给出一个分数，却

超全推理语言模型蓝图来了！揭开o1、o3、DeepSeek-V3神秘面纱

下午12时 2025/01/28 作者新智元

新智元报道
编辑：KingHZ Aeneas
【新智元导读】
ETH Zurich等机构提出了推理语