精确度与频率偏差归档 - 每时AI

知识储备≠模型能力！DeepMind强化学习微调：大幅缩小「知行差距」

2025年6月21日23时作者新智元

行差距表现欠佳。研究者提出强化学习微调（RLFT），通过自我生成的推理链（CoT）优化模型，提升决策