惩罚-塑造机制归档

谷歌DeepMind强化学习微调技术重构了语言模型决策范式

下午11时 2025/05/20 作者陳寳

AI决策能力不足成为行业关注的问题。谷歌DeepMind与LIT AI实验室的研究通过强化学习微调技术提升了语言模型500%的决策能力。该方法利用思维链作为训练信号，并设计了惩罚-塑造机制，使模型能够在动态环境中做出可持续决策。研究显示单一增加模型规模无法突破执行鸿沟。