周志华团队新作:LLM中存在奖励模型,首次理论证明RL对LLM有效性 2025年7月2日16时 作者 机器之心 研究提出了一种新的方法——内源性奖励模型,它可以从大语言模型中挖掘出质量较高的奖励信号,而无需依赖人类标注数据。这项工作为机器学习领域提供了理论基础,并展示了其在常见任务中的有效性。