谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙 2025年5月5日23时 作者 机器之心 该研究系统地分析了大语言模型在决策场景中的表现次优原因,并提出通过强化学习对自动生成的思维链推理过程进行微调,以缓解贪婪性、频率偏差和知行差距问题。