一套LLM幻觉检测工具:uqlm

一套LLM幻觉检测工具:uqlm,给了多种评测方式来检测AI输出幻觉,可以根据不同的场景选择合适的方法

1、黑盒评分器,通过多次生成并比较同一提示的回复来评估一致性。就反复问同一个问题,如果每次回答的核心意思不一致或差异很大,说明它可能在瞎编

2、白盒评分器,利用token概率估计不确定性。查看LLM对自己答案中每个部分的自信程度,如果它对某个词或句子很不确定,就说明这部分内容可能有问题

3、专家评审法 (LLM 作为评委评分器),使用一个或多个 LLM评估原始LLM回复的可靠性,就是找其他LLM来评判答案的可靠性

4、综合评估法 (集成评分器),结合以上几种方法进行综合评估

参考文献:
[1] github:https://github.com/cvs-health/uqlm
[2] https://cvs-health.github.io/uqlm/latest/index.html



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往