谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙 下午11时 2025/05/05 作者 机器之心 该研究系统地分析了大语言模型在决策场景中的表现次优原因,并提出通过强化学习对自动生成的思维链推理过程进行微调,以缓解贪婪性、频率偏差和知行差距问题。