一套LLM幻觉检测工具：uqlm

一套LLM幻觉检测工具：uqlm，给了多种评测方式来检测AI输出幻觉，可以根据不同的场景选择合适的方法

1、黑盒评分器，通过多次生成并比较同一提示的回复来评估一致性。就反复问同一个问题，如果每次回答的核心意思不一致或差异很大，说明它可能在瞎编

2、白盒评分器，利用token概率估计不确定性。查看LLM对自己答案中每个部分的自信程度，如果它对某个词或句子很不确定，就说明这部分内容可能有问题

3、专家评审法 (LLM 作为评委评分器)，使用一个或多个 LLM评估原始LLM回复的可靠性，就是找其他LLM来评判答案的可靠性

4、综合评估法 (集成评分器)，结合以上几种方法进行综合评估

参考文献：
[1] github：https://github.com/cvs-health/uqlm
[2] https://cvs-health.github.io/uqlm/latest/index.html

知识星球服务内容：Dify源码剖析及答疑，Dify对话系统源码，NLP电子书籍报告下载，公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。

（文：NLP工程化）