体验时代归档

强化学习之父：LLM主导只是暂时，扩展计算才是正解

上午11时 2025/06/10 作者量子位

新晋图灵奖得主Richard Sutton预测大模型主导是暂时的，未来五年甚至十年内AI和强化学习将转向通过Agent与世界的第一人称交互获取‘体验数据’的学习。他强调AI需要新的数据来源，并且要随着增强而改进。他认为真正的突破还是来自规模计算。