知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」 2025年6月21日23时 作者 新智元 行差距表现欠佳。研究者提出强化学习微调(RLFT),通过自我生成的推理链(CoT)优化模型,提升决策