这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章:
基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示
什么是评估模型?
评估模型 (Judge models) 是一种 用于评估其他神经网络的神经网络。大多数情况下它们用来评估生成文本的质量。
评估模型涵盖的范围很广,从小型的特定分类器 (例如 “垃圾邮件分类器”) 到大型的 LLM,或大而广、或小而专。使用 LLM 作为评估模型时,需要提供一个 prompt 来解释对模型评分的细则 (例如:请对语句流畅度从 0 到 5 评分,0 分表示完全不可理解,…
)。
使用模型作为评估工具可以对文本中复杂和细微的特性有效的评估。
例如精确匹配预测文本和参考文本的任务,只能评估模型预测正确事实或数字的能力。但要评估更开放性的经验能力 (如文本流畅水平、诗词文学质量或输入忠实程度) 则需要更复杂的评价工具。
这就是评估模型最初的切入点。
它们通常用于三大任务。
-
为生成文本打分:使用预先定义的评分标准与范围来评估文本的某些属性 (如流畅度、有害性、一致性、说服力等)。 -
成对比较:对比模型的两个输出,以选出在给定属性上表现更好的文本。 -
计算文本相似度:用于评估参考文本和模型输出的匹配程度。
注:本文目前主要关注 LLM + prompt 的评估方法。不过建议你还是了解一下简单分类器评估模型的工作原理,因为这种方法在许多测试用例中都具有稳定的表现。最近也出现了一些新的有前景的方法,例如奖励模型作为评估模型 (在
LLM 评估模型的优劣势:
优势:
-
客观性:与人类相比,LLM 评估模型在自动化地做出经验性判断时更加客观。 -
规模化和可复现:LLM 评估模型可以在非常大规模数据上做评估,并且评估结果可以复现。 -
成本较低:与支付人工标注员报酬相比,由于无需训练新模型,只要使用现有的高质量 LLM 和 prompt 就可以进行评价任务,因此评估模型成本较低。 -
与人类判断对齐:LLM 评估结果在一定程度上与人类的判断具有相关性。
劣势:
-
LLM 评估模型看似客观,实际上具有更难被检测到的 隐藏偏差,这是因为我们无法主动地发掘这些偏差 (参考 技巧与提示 文章)。此外,缓解人类偏差可以通过设计一些内容具体或统计稳健的调查问卷的方式 (这在社会学领域已有近百年的研究),而缓解 LLM 偏差的方式就没那么成熟了。另外,使用 LLM 评估 LLM 可能会产生 “回音室效应”,即潜移默化地加强了模型的固有偏差。 -
LLM 评估模型虽然具有规模化优势,但同时也会生成大量的数据需要仔细检查。例如模型可以生成思维路径或数据推理,但产生的结果需要更多的分析。 -
LLM 评估模型在通常情况下便宜,但在某些具体任务中如需获取质量更高的评估结果而聘请专家级人工标注员,那么成本会相应增加。
如何开始?
如果你想尝试设置自己 LLM 评估模型,推荐阅读由 Aymeric Roucher 撰写的
一些使用工具:
-
distilabel https://distilabel.argilla.io/latest/ -
Ultrafeedback 论文 https://arxiv.org/abs/2310.01377 -
Ultrafeedback 教程 https://distilabel.argilla.io/latest/sections/pipeline_samples/papers/ultrafeedback/ -
Arena Hard 基准实现教程 https://distilabel.argilla.io/latest/sections/pipeline_samples/examples/benchmarking_with_distilabel/
英文原文:
https://github.com/huggingface/evaluation-guidebook/blob/main/translations/zh/contents/model-as-a-judge/basics.md 原文作者: clefourrier
译者: SuSung-boy
审校: adeenayakup
(文:Hugging Face)