新智元报道
新智元报道
【新智元导读】研究人员首次探讨了大型语言模型(LLMs)在问题生成任务中的表现,与人类生成的问题进行了多维度对比,结果发现LLMs倾向于生成需要较长描述性答案的问题,且在问题生成中对上下文的关注更均衡。
大型语言模型(LLM)的兴起,极大提升了各种自然语言处理(NLP)任务的性能,其中也包括问题生成,虽然应用广泛,但还没有研究讨论过「用LLMs生成问题的特点」。
没有额外提示约束时,LLMs是更倾向于生成较长还是较短的问题?倾向于问什么类型的问题?LLMs生成的问题与人类编写的问题又有哪些不同?
最近,加州大学伯克利分校、阿卜杜勒阿齐兹国王科技城、华盛顿大学的研究人员提出了一种基于LLMs的自动化评估方法,重点关注问题的长度、类型、上下文覆盖范围和可回答性等维度,结果发现LLMs倾向于生成需要描述性、较长答案的问题;
常见的问答任务中,人类更倾向于选择文章的开始结束位置生成问题,LLMs对整个上下文的关注更加均衡。
论文链接:https://arxiv.org/pdf/2501.03491
虽然已经有研究通过实证来评估人类一致性,但还没有将LLMs生成问题的质量标准与人类生成问题进行对比。
这篇文章首次揭示了LLMs在问题生成中的偏好,通过引入自动评估流程,扩展了现有的统计问题质量标准,研究发现为评估下游应用(如RAG系统和幻觉检测)的提示工程优化提供了经验,可以防止在不当情境下的滥用,更深入地了解LLMs在问题生成中的行为倾向。
生成流程与指标
从上下文中生成问题
问题的输入包括:一个段落文本作为上下文C,一个问题生成指令提示P;大模型M的输出为N个问题Q,其中每个问题都可以用上下文中的事实来回答。
不能直接使用LLM进行问题生成:问题假定读者对上下文的某个特定范围很熟悉;生成的问题可能没有标准答案;有些问题直接引用了上下文,如果没有上下文就无法回答。
所以研究人员设计了一段提示词:
你需要根据以下内容中提到的事实生成[N]个自成一体的简短答案问题。避免直接引用内容的问题。每个问题都应包含所有相关的上下文,并直接提及任何被引用的项目,避免使用「它」「这款游戏」或「这个人」等代词。不要包含引用来源或上下文的短语,如「文章中提到的」或「根据文本」。将问题以有序列表的形式提供。
为了构建上下文C,研究人员将WikiText数据集分割成86万个段落,同时保留章节结构作为元数据;在过滤掉过短的段落并清理特殊字符后,通过整合段落文本并附加相关章节标题来组成上下文。
该流程类似于HotpotQA的先上下文后问题的方法,众包人员根据维基百科的多个证据段落生成问题;作为对比,TriviaQA是一个由知识竞赛爱好者编纂的问答数据集,标注人员根据问题在文章中寻找证据。
与答案无关的评估指标
对于人类来说,选择提出哪种问题是主观的,研究人员探索了在没有额外约束的情况下LLMs能够生成的问题类型,分析了十个手动定义类别的问题类型(通过观察HotpotQA、TriviaQA和论文数据集中的混合问题得到),并将其与人类的偏好进行比较。
问题长度
长度是生成问题的一个直观统计指标,研究人员主要统计单词数量;除了直接比较人类生成和LLMs生成数据集中的问题长度外,还考察了问题长度与问题类型之间的关系。
上下文覆盖范围
一个问题可能需要跨多个句子进行推理,研究人员扩展了基于提示的句子级测量方法,还研究了单词级上下文覆盖范围;分析了在生成过程中LLMs倾向于关注上下文的哪些具体部分。
结果可以看到,问题生成并不遵循之前研究中讨论问答中的类似位置偏差。
与答案有关的评估指标
可回答性(Answerability)
问题的关键质量标准是,在给定特定知识的情况下,是否能够被精确回答,即在提供上下文时,生成的问题应该是可回答的。
研究人员提示LLMs使用给定的上下文作为输入来生成答案;由于答案的正确性也是基于相同的上下文来评估的,因此在大多数情况下,生成的问题都是可回答的。
非常见性(Uncommonness)
LLMs的预训练数据基于互联网上广泛可用的常识,即使没有明确提供上下文,LLMs仍然可能回答问题。
与可回答性评估相比,关键区别在于在答案生成过程中省略了上下文,而其他因素保持不变;结果也可以看到,去除上下文会显著降低答案质量,也表明,生成的问题对于评估RAG系统或进行自动幻觉测试很有价值。
所需答案长度(Required answer length)
除了问题长度外,所需答案的长度也是衡量问题信息量的有效的指标。
由于生成模型的特性,生成的答案往往更长,包含更多细节;为了从带有上下文生成的答案中筛选出不必要的信息,研究人员使用了两种策略来测量答案的基本长度:1)要求模型生成的文字答案最短;2)设置生成字数限制。
结果显示,该方法可以用更少的字数实现相同的质量评级,并显著降低答案长度,第二种策略通常来说更好。
实验结果
在答案评分方面,人工标注与GPT-4o评估之间的平均皮尔逊相关系数为0.77,表明存在很强的正线性相关性。
LLMs会提什么类型的问题?
根据预定义的问题类型,研究人员将其分为三组:LLaMA和GPT模型都强烈倾向于询问具体的事实和数字,可能与训练数据的分布有关;不太容易提出的问题是根据上下文中的多个事实进行推理,与HotpotQA更相似;大模型也更倾向于询问描述类、需要详细答案的问题,这种偏好也导致了答案更长。
生成的问题有多长?
尽管整体的问题长度大致相似,约为20个单词,但不同的LLMs倾向于表现出对长度的不同偏好;人类生成的问题长度变化更大。
使用了多少上下文以及具体是哪部分?
人类生成的问题倾向于覆盖更多的上下文,无论是句子级还是单词级测量结果都是一致的。
人类生成的问题倾向于集中在上下文的开头,但LLMs生成的问题呈现出更均衡的分布,表明基于LLMs的问题生成与问答相比显示出几乎相反的位置关注焦点。
生成的问题是否可以在有/无上下文的情况下回答?
通过结合答案生成和评分,可以观察到,在有上下文的情况下,LLMs通常能生成令人满意的答案,符合预期。
当不提供上下文时,性能会下降,大约四分之一的生成问题无法得到合适的回答,GPT-4o生成的问题与人类构建的HotpotQA数据集相比,显示出更高比例的非常见问题。
回答问题需要多少信息?
LLMs生成的答案通常比人类标注的正确答案要长得多,可能是因为生成模型的特性。
为了更准确地衡量所需信息量,将LLMs生成的答案压缩,在保持评分的情况下生成最短版本。
(文:新智元)