反常识!用大模型自己编的“假语料”,反而让它更诚实


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

论文链接: 

https://arxiv.org/pdf/2507.08371

标题: 

The Curious Case of Factuality Finetuning: Models’ Internal Beliefs Can Improve Factuality

一句话理解:

本文研究如何通过后训练(post-training)减少大语言模型在长文本生成中的“幻觉”(hallucination)问题,即模型生成虚假或不准确信息的现象。结论是让模型更诚实的关键不是教它更多“真实”,而是让它更相信自己的“已知”。

核心发现:

模型“相信”的内容比“真实”更重要。

反直觉的结论:用模型自己生成的、它“相信”是真实的内容来微调,反而比用真实(gold)数据微调更能减少幻觉。

研究方法与实验设计

作者设计了一个名为 EPISTEMIC TRAINING 的训练方法,包含两个关键维度:

知识来源:

人类编写的“金标准”文档(gold)

模型自己生成的内容(generated)

过滤方式:

外部验证:用外部文档判断真假(external)

内部验证:用模型自身的置信信号(internal)

实验结果(跨三个领域:人物传记、剧情摘要、医学术语)

Generated + Internal(EPISTEMIC TRAINING): 幻觉最少,效果最好

Generated + External: 效果次好

Gold + Internal: 效果一般

Gold + External: 效果最差

无微调: 幻觉最多

关键洞察

“熟悉度”比“真实性”更重要:模型对不熟悉的真实内容反而更容易“编故事”,而对熟悉的内容即使不完全真实也更不容易出错。

内部知识探针有效:用模型内部的“置信信号”来过滤训练数据,比用外部文档验证更有效。

跨领域泛化能力强:在一个领域训练出的“事实性”能力可以迁移到其他领域,减少对金标准数据的依赖。

局限与未来方向

如果模型对某个领域一无所知,内部探针也无法帮助。

可能加剧对某些群体(如少数族裔)的“沉默”或偏见。

如何在不牺牲信息量的前提下提高事实性,仍是挑战。



(文:机器学习算法与自然语言处理)

发表评论