概率值归档 - 每时AI

让 LLM 来评判 | 奖励模型相关内容

2025年2月14日14时作者 Hugging Face

奖励模型通过学习人工标注的成对 prompt 数据来预测分数，用于评估语言模型的表现。它们比传统LLM评估模型更快速且具有确定性，但需要特定微调和考虑位置偏差影响。