决策场景归档 - 每时AI

谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

2025年5月5日23时作者机器之心

该研究系统地分析了大语言模型在决策场景中的表现次优原因，并提出通过强化学习对自动生成的思维链推理过程进行微调，以缓解贪婪性、频率偏差和知行差距问题。