MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 深度学习自然语言处理

大模型的“决策短板”从何而来？

大语言模型（如ChatGPT、Gemma2）在文本生成、代码编写等领域大放异彩，但当它们被用作“智能体”做决策时，却常犯低级错误：比如玩井字棋胜率只有15%（不如随机玩家），或在老虎机任务中反复选择同一个低收益选项。

论文：LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
链接：https://arxiv.org/pdf/2504.16078

这篇论文揭开了背后的三大“性格缺陷”：贪婪性、频率偏差和知行差距，并通过强化学习微调（RLFT）结合思维链（CoT），让LLM的决策能力实现质的飞跃。

三大失败模式

就像人类炒股时过早抛售潜力股，LLM会迅速锁定早期高收益动作（如老虎机的某个拉杆），后续不再探索其他选项。实验显示：

小规模模型（如2B参数）尤其明显：如果某个动作在历史记录中出现次数多（比如连续按“蓝色按钮”10次），即使它收益低，LLM仍会盲目选择。

LLM能正确推演最优策略（如计算UCB值），但行动时却选择次优选项。例如：

破解之道：强化学习微调+思维链

论文提出“决策日记训练法”：

去掉思维链后，模型表现倒退至微调前水平，证明CoT是“有效思考”的关键。

论文尝试了多种增强探索的方法：

实验结果：结合探索奖励（+1奖励未尝试动作）效果最佳，覆盖率提升至70%。

（文：机器学习算法与自然语言处理）