让 LLM 来评判 | 奖励模型相关内容 下午2时 2025/02/14 作者 Hugging Face 奖励模型通过学习人工标注的成对 prompt 数据来预测分数,用于评估语言模型的表现。它们比传统LLM评估模型更快速且具有确定性,但需要特定微调和考虑位置偏差影响。