S-GRPO 归档 - 每时AI

华为攻克AI推理「想太多」问题！新方法让大模型推理提速60%，准确率还高了

2025年5月29日16时作者量子位

华为提出S-GRPO方法，通过’串行分组 + 衰减奖励’设计让大模型提前终止思考，提高推理效率60%，生成更精确的答案。