只有通过海量测试才能抓住泛化性的本质吗？

本文第一作者为上海交通大学博士生程磊，指导老师为上海交通大学张拳石教授。

当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时，我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模型的「表征质量」或者「泛化性」？我们真的只有通过海量的测试数据才能抓住泛化性的本质吗？或者说，能否在数学上找到一个定理，直接从表征逻辑复杂度本身就给出一个对模型泛化性的先验的判断呢？

论文标题：Revisiting Generalization Power of a DNN in Terms of Symbolic Interactions
论文地址：https://arxiv.org/abs/2502.10162

本文就上述问题给出了初步的探索，从神经网络内在精细交互表征复杂度的角度来探索「可泛化交互表征」和「不可泛化交互表征」各自所独有的分布。

一、大模型时代呼唤更高效的泛化性分析策略——中层表征逻辑的交流与对齐

尽管深度学习基础理论近年来取得了长足的发展，但一些根本性问题仍未得到有效解决。典型地，对神经网络泛化性的研究依然停留在一个相对较浅的层面——主要在高维特征空间分析解释神经网络的泛化性（例如通过损失函数景观平滑度来判断泛化性）。

因此，我们始终无法对神经网络泛化性给出一个「究竟」的解释——究竟怎样的确切的表征才叫高泛化性的表征。

然而，不同于判断「人工神经网络」的泛化性，人们对自身「生物神经网络」可靠性的有一种更加直接有效的评价策略——在内在表征层面的交流。让我们跳出不言自明的直觉，反观人类智能，其实人类的交流是一种很神奇的能力，两个上百上千亿神经元的黑盒大脑（而且链接方式也各不相同）居然可以不约而同地共享相同的底层符号化认知——不仅包括语言，还包括一些下意识的公共认知（比如底层的 image segmentation 都是下意识自动完成的），让人们可以直接可以从中层逻辑层面进行交流和对齐。人类彼此通过交流中层表征逻辑层面来实现对齐和互信，而不是像对待神经网络那样，需要通过长期的、大样本的、统计上的正确率来证明其可靠性。

比起端到端评测中统计意义的正确率，通过中层表征逻辑的交流，是判断一个智能体表征可靠性的一个更直接、更高效、更本质的手段。

二、两个本质的数学问题

然而，上述在中层精细表征逻辑上的交流与对齐，目前并没有被应用在人工神经网络上，根本上，工程实现上种种细节问题都可以归结为两个基本的数学问题。

问题 1：能否数学证明神经网络内在复杂混乱的各种精细表征逻辑，可以被清晰地、简洁地解释为一些符号化的概念。

这里，我们要面对一个看似相互矛盾的「既要又要」，既要解释的「简洁性」又要同时兼顾解释的「全面性」——用简洁的符号化操作解释神经网络中几乎全部的细节表征变换。

实验室前期提出的「等效交互解释理论」部分解决了上述问题。它证明了大部分神经网络的分类置信度的计算可以等效表示为一个符号化的（稀疏的）「与或交互逻辑模型」。

具体地，给定一个包含 n 个输入单元的输入样本，其一共存在 2^n 种不同的遮挡状态，我们发现神经网络在这 2^n 种不同遮挡状态下对目标类别的不同分类置信度，都可以表示为少量的（比如 50 到 150 个）与或交互逻辑的数值效用之和。

即无论输入样本被如何遮挡，其各种变化的分类置信度都可以被这个「与或交互逻辑模型」中 50 到 150 个交互所全部拟合出来。我们将其称为交互的「无限拟合性」——这是一个很强的结论，在数学上保证了「神经网络内在精细表征逻辑可以被严格地解释为少量的『与或交互概念』」。

图 1. 与或交互的无限拟合性。给定一个神经网络，总能构造出一种稀疏的「与或交互逻辑模型」，仅使用少量的显著「与或交互」来精确匹配神经网络在所有 2^n 种遮挡样本上的输出。

如图 1 所示，「与或交互逻辑模型」中的交互分为「与交互」和「或交互」两类。其中，「与交互」S 表示神经网络所等效建模的输入单元间的「与逻辑」关系，当集合 S 内所有输入单元均出现在输入样本（不被遮盖）时，该交互为神经网络的分类自信分数贡献一个数值效应。例如，图 1 中 LLaMA-7B 模型编码了一个与交互，当集合内输入单元均出现时，为 LLM 预测下一个词素「space」（目标单词 spacetime 中的词素 token）贡献一个正的数值效应。「或交互」表示神经网络所等效建模的输入单元间的「或逻辑」关系，当集合 S 内任一输入单元出现（不被遮盖）时，该「或交互」为神经网络的分类自信分数贡献一个数值效应。例如，上图中模型编码了一个或交互，当集合内任一输入单元出现时，为 LLM 预测下一个单素「space」贡献一个正的数值效应；

相关内容参考博客：

https://zhuanlan.zhihu.com/p/693747946

https://mp.weixin.qq.com/s/MEzYIk2Ztll6fr1gyZUQXg

三、通过符号化交互概念复杂度分布直接判断神经网络的泛化性

问题 2：我们能否直接通过神经网络所等效建模的符号化交互概念，直接判断神经网络的泛化性。

由于问题 1 已经在实验室前期工作中给出了理论解答，本文主要讨论解决问题 2——究竟能否在交互概念表征层面判断一个黑盒模型的泛化性，即我们能否从某个具体的数学指标，直接将神经网络的交互概念表征和神经网络的泛化性建立起内在的相关性。

由于我们证明了神经网络的分类置信度可以被解构为少量交互概念数值效用的和，所以神经网络整体展现出的泛化性可以被视为不同交互概念泛化性的集成效用。

交互泛化性的定义：如果一个交互概念在训练样本中大量出现，同时也在测试样本中也大量出现，那么我们认为这个交互概念被泛化到了测试样本。反之，如果一个交互概念只在训练样本中出现，而不在测试样本中出现，那么这个交互被认为是不可稳定泛化的。比如，在人脸检测中，神经网络往往建模两个眼睛和一个鼻子之间的交互概念，如果这样的交互概念在训练样本和测试样本上出现的频率是差不多的，那么这个交互概念就是可以稳定泛化的。

交互概念的阶数（复杂度）：交互概念 S 的复杂度可以由交互概念的阶数来量化，即交互概念 S 中包含输入单元的数目，i.e. order(S)=|S|。高阶（复杂）交互包含更多的输入单元，而低阶（简单）交互包含更少的输入单元。

交互概念的分布：对于所有 m 阶交互，我们通过计算所有 m 阶正交互的强度之和和所有 m 阶负交互的强度之和来表示交互概念在不同阶数（复杂度）上的分布。具体计算公式如下

我们发现了，神经网络中不可泛化交互往往在不同阶数（复杂度）上呈现纺锤形分布，而可泛化的交互往往在不同阶数（复杂度）呈现衰减形分布。

以图 2 为例，大多数可泛化的交互是低阶交互，少部分是中高阶交互。此时可泛化的交互随着阶数升高强度逐渐减小，其在不同阶数上的分布呈现衰减形；而大多数不可泛化的交互主要是中阶交互，很少有极低阶交互和极高阶交互，而且每一阶的不同交互效用近似正负抵消。换言之，不可泛化的交互在不同阶数上的分布呈现纺锤形。

图 2. 我们发现神经网络的交互可以被分解为两部分：服从衰减形分布的可泛化的交互和服从纺锤形的不可泛化的交互

实验一：当我们训练神经网络直至过拟合，我们发现神经网络过拟合前的交互往往呈现衰减形分布，而过拟合阶段新出现的交互往往呈现纺锤形分布。

具体地，我们使用神经网络测试集 loss 与训练集 loss 之间的 loss gap 将神经网络的学习过程分成两个阶段：第一阶段，神经网络的 loss gap 趋近于 0，对应神经网络的正常学习过程。此时神经网络主要编码了低阶交互，交互的分布呈现衰减形，如图 3 所示。第二阶段，神经网络的 loss gap 开始上升，对应神经网络的过拟合过程，此时神经网络开始编码中高阶交互。我们使用, 分别表示神经网络在第二阶段过程中（相对于第一阶段末）所新编码的 m 阶正交互的强度之和和 m 阶负交互的强度之和。我们发现，在过拟合阶段神经网络新编码的交互呈现纺锤形分布。这印证了不可泛化的交互往往呈现纺锤形分布，而可泛化性的交互往往呈现衰减形分布的结论。

图 3. 交互在神经网络训练过程的两阶段动态变化过程。第一阶段，由模型参数初始化产生的噪声交互（时间点 A）被逐渐去除（时间点 B），神经网络主要编码了衰减形分布的交互。第二阶段，神经网络新编码的交互的分布呈现纺锤形（时间点 C 和 D）。

实验二：当我们修改训练好的神经网络，使其包含更多的不可泛化的表征时，新出现的交互往往呈现纺锤形。

具体地，给定一个训练好的神经网络，我们使用以下两种方法向神经网络注入不可泛化的表征：1. 向神经网络参数中添加高斯噪声，2. 向样本中添加对抗扰动。与实验一类似，我们使用, 表示神经网络在修改后相对于修改前所新编码的 m 阶正交互的强度之和和 m 阶负交互的强度之和。

我们发现，修改后新出现的交互的分布呈现纺锤形。此外，当我们逐渐增大所加入的噪声强度（方差），此时新出现的纺锤形分布的交互强度也逐渐增大。上述实验部分印证了不可泛化的交互的分布往往呈现纺锤形的结论。

图 4. 注入噪声后，新出现的交互分布（）呈现纺锤形。随着注入噪声强度的逐渐增加，新出现的呈现纺锤形分布的交互强度随之增大。理论估计的纺锤形交互分布（）（见公式(6)）与实验测量的新出现交互分布高度匹配。

我们提出了两个参数模型来建模神经网络的不可泛化交互的纺锤形分布和可泛化交互的衰减形分布。

第一，对于纺锤形分布的建模，我们团队在之前的工作中发现了给定一个完全初始化的神经网络，此时神经网络编码的交互是无意义的高斯噪声。这时，可以证明给定完全初始化的神经网络，当输入单元的数量为 n 时，神经网络的 m 阶交互的强度和满足二项分布。因此，在当前研究中，我们进一步发现对于一个训练过的神经网络，如果不是所有的输入单元之间都有交互时，我们可以引入比例系数来构造如下参数模型来建模该模型不可泛化的交互的纺锤形分布。

其中伽马函数的作用是将阶乘拓展到实数范围，进而实现了将二项分布拓展到实数范围，即。

第二，对于衰减形分布的建模，我们团队在之前的工作中理论并实验验证了神经网络在训练过程的第二阶段的交互变化动态过程。定理 2.3 表示了神经网络参数和数据集中的不稳定噪声可以去除神经网络的相互抵消的中高阶交互，即避免过拟合。因此，我们可以通过设置，来去除给定神经网络交互中的过拟合成分，从而得到衰减形分布的可泛化交互。