MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

论文链接:

https://arxiv.org/pdf/2507.08371

标题:

The Curious Case of Factuality Finetuning: Models’ Internal Beliefs Can Improve Factuality

一句话理解:

本文研究如何通过后训练（post-training）减少大语言模型在长文本生成中的“幻觉”（hallucination）问题，即模型生成虚假或不准确信息的现象。结论是让模型更诚实的关键不是教它更多“真实”，而是让它更相信自己的“已知”。

核心发现:

模型“相信”的内容比“真实”更重要。

反直觉的结论：用模型自己生成的、它“相信”是真实的内容来微调，反而比用真实（gold）数据微调更能减少幻觉。

研究方法与实验设计

作者设计了一个名为 EPISTEMIC TRAINING 的训练方法，包含两个关键维度：

知识来源:

人类编写的“金标准”文档（gold）

模型自己生成的内容（generated）

过滤方式:

外部验证：用外部文档判断真假（external）

内部验证：用模型自身的置信信号（internal）

实验结果（跨三个领域：人物传记、剧情摘要、医学术语）

Generated + Internal（EPISTEMIC TRAINING）: 幻觉最少，效果最好

Generated + External: 效果次好

Gold + Internal: 效果一般

Gold + External: 效果最差

无微调: 幻觉最多

“熟悉度”比“真实性”更重要：模型对不熟悉的真实内容反而更容易“编故事”，而对熟悉的内容即使不完全真实也更不容易出错。

内部知识探针有效：用模型内部的“置信信号”来过滤训练数据，比用外部文档验证更有效。

跨领域泛化能力强：在一个领域训练出的“事实性”能力可以迁移到其他领域，减少对金标准数据的依赖。

如果模型对某个领域一无所知，内部探针也无法帮助。

可能加剧对某些群体（如少数族裔）的“沉默”或偏见。

如何在不牺牲信息量的前提下提高事实性，仍是挑战。

（文：机器学习算法与自然语言处理）