IN.AI归档 - 每时AI

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

下午12时 2025/02/09 作者量子位

研究团队通过对比SFT和RL两种方法发现，长CoT的生成需要大量的计算资源。他们提出了四个关键发现：SFT并非必需但能简化训练并提高效率；推理能力随着训练计算增加而出现，但并非总是如此；可验证奖励函数对增长CoT至关重要；基模型中的错误修正等技能需要通过RL有效地激励。