自从大语言模型(LLMs)在各种任务中展现出卓越性能以来,其内部机制的解读已经成为领域内的热门话题。尽管许多研究人员从各个方面做出了尝试并得到了一些结论,但现阶段仍缺乏一个全面的视角来对现有成果进行系统化的归纳与总结。
为此,上海创新算法研究院大模型中心联合清华大学、中国电信研究院发布了综述论文《Attention Heads of Large Language Models》,整合了当前关于注意力头的研究进展,提出创新性的分析框架,从全局视角揭示注意力头的功能与工作机制,为研究者提供了清晰的方向参考和理论支持。该工作已在 Cell 旗下的数据科学子刊《Patterns》发表。
Github项目地址:

为什么关注“注意力头”?
在 Transformer 结构中,注意力头是其推理能力的关键组件,它通过选择性地关注输入序列中的相关部分,从而实现上下文理解。然而,不同注意力头在推理中的具体功能与协作方式尚不明确。深入研究注意力头不仅有助于揭示大模型的内部逻辑,还为大模型的可解释性研究提供了理论基础。
核心内容与创新亮点
全新四阶段认知框架
该综述创新性地提出了一个认知框架用于描述人类大脑解决特定问题的过程。该框架将人脑的推理过程分为知识召回(Knowledge Recalling)、上下文识别(In-Context Identification)、潜在推理(Latent Reasoning)以及表达准备(Expression Preparation)四个阶段。
这一框架不仅定义了每个阶段的具体作用,同时也指明了这些阶段之间存在的关联,为人脑相关机制研究提供了新的视角。

借助提出的认知框架,该综述首次将认知神经科学的原理融入大模型可解释性研究中,清晰定义了不同注意力头在推理过程中的具体功能。例如,某些注意力头专注于跨句子的上下文对齐,另一些则负责增强模型的记忆能力,还有一些承担了核心的推理工作。
这样的分类不仅帮助研究者更好地理解模型的内部机制,还为构建更高效的模型提供了设计灵感。

实验方法的系统化总结


评估基准的全面收录

除了总结现有研究的进展,该综述也提出了当前研究的不足之处,例如缺乏对多个注意头的协作机制的研究,并展望了未来可能的发展方向,包括研究注意力头在复杂任务中的工作机制以及开发新的实验方法,为该领域的进一步的研究提供了参考方向。
总结
《Attention Heads of Large Language Models: A Survey》作为一篇全面系统的综述,填补了大模型可解释性研究中注意力头这一重要子领域缺乏系统归纳的空缺。
该综述创新性提出四阶段认知框架,详细分类了注意力头的功能,梳理了当前的实验方法,并总结了丰富的评估基准,为后续研究提供了坚实的理论基础和实践指导。除此之外,这篇综述也叙述了当前研究存在的不足,并指出了未来的研究方向,为相关领域的研究者提供了清晰的蓝图。
(文:PaperWeekly)