逆强化学习归档

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

2025年7月2日16时作者机器之心

研究提出了一种新的方法——内源性奖励模型，它可以从大语言模型中挖掘出质量较高的奖励信号，而无需依赖人类标注数据。这项工作为机器学习领域提供了理论基础，并展示了其在常见任务中的有效性。