ICLR 2025 北航、港理工等提出全新Node IDs框架，学习超短离散节点表示

▲ Node ID 示意图

我们简要介绍了一种名为 Node Identifiers（Node IDs）的新型节点离散表示学习框架。该框架利用向量量化（Vector Quantization，VQ）技术，将经典图神经网络（GNNs）在多层邻域信息聚合后生成的连续嵌入（embeddings），压缩成高效、紧凑（通常 6-15 维）、并且可解释的离散表示（int4 类型）。

通过对 34 个基准任务（涵盖节点分类、图分类、链接预测及图聚类任务）的实证研究，Node IDs 在保证性能表现的同时显著降低了内存占用并加速了推理过程。

更重要的是，这些 Node IDs 不依赖可以无缝结合现有的无监督和有监督 GNNs 方法，从而兼顾预测性能与高效推理。本研究为图表示学习在大规模场景下的应用提供了新的思路。

论文题目：

Node Identifiers: Compact, Discrete Representations for Efficient Graph Learning

论文作者：

罗元凯，李宏康，刘奇煚，时磊，吴晓明

作者单位：

北京航空航天大学、香港理工大学、伦斯勒理工学院

论文链接：

https://openreview.net/forum?id=t9lS1lX9FQ

代码链接：

https://github.com/LUOyk1999/NodeID

引言

在图数据上进行机器学习时，通常要考虑图的结构以及节点/边特征，这广泛应用于节点分类、图分类、链接预测及推荐系统等。

现有的大部分图神经网络（GNNs）通过消息传递（message passing）迭代聚合节点邻域的信息，在众多任务上取得了优异的性能。然而，GNNs 在大规模场景中的推理效率往往受限于以下方面：

消息传递的高开销：推理时需要加载完整的图结构，对大规模图（可能包含数十亿条边）会带来巨大的计算与存储压力。
连续嵌入维度高且可解释性差：典型的 GNN 嵌入通常维度较高（128 或 256 维），不仅影响存储和计算效率，也在一定程度上缺乏可解释性。

为此，我们提出了一个端到端的向量量化框架 NID，可在自监督或有监督训练过程中，不引入重构损失的前提下，将多层 GNN 嵌入直接量化为若干离散编码（Node IDs）。这些 Node IDs 具有以下特点：

紧凑与高效：通常只有 6-15 维，且类型为 int4，可显著提升推理速度并降低内存占用。
信息保留充分：在 34 个数据集的节点分类、图分类、链接预测和带属性图聚类任务中，Node IDs 在高效推理的同时，性能与最先进模型相当或更优。
可解释性：由于 Node IDs 以离散码本（codebook）的形式表示多层邻域结构，易于通过码字索引理解节点的聚类模式与语义差异。

基于此，我们的发现表明了 GNN 嵌入存在显著的冗余，而生成的紧凑离散 Node IDs 提供了图数据的高级抽象，这一发现可能为图数据的标记化处理和涉及大模型的应用提供帮助。

方法介绍

我们提出的 NID 框架由两个阶段组成：

生成紧凑的离散 Node IDs：节点通过多层 GNN 编码，以捕获多阶邻居结构。在每一层中，节点嵌入被量化为一组结构化的代码元组。然后，这些元组被组合成我们所称之为 Node IDs 的表示。
利用生成的 Node IDs 作为各种下游任务中的节点表示：我们直接使用 Node IDs 进行无监督任务，如节点聚类。我们使用 Node IDs 训练简单的 MLP 网络进行监督任务，包括节点分类、链接预测和图分类。

2.1 Node IDs 的生成

▲ GNN 不同层节点表征的 t-SNE 可视化

上图展示了 GNN 在不同层次生成的节点表示的不同聚类模式。这种多样性来自于每一层图卷积的连续应用所造成的平滑效应 [1]。

为了生成结构感知的 Node IDs，我们采用一个层的 GNN 来捕获多阶邻居结构。在每一层中，我们使用向量量化将 GNN 生成的节点嵌入编码为个代码（整数索引）。对于每个节点，我们将 Node ID 定义为由个代码组成的元组，结构如下：

其中表示第层的第个代码。

▲ NID 架构图

如上图所示，在 GNN 的每一层（）中，我们使用 RVQ [2] 对节点嵌入进行量化，为每个节点生成层次的代码。每个代码（）是由不同的 codebook 生成的，其中是 codebook 的大小。因此，总共有个 codebook，按索引。设表示待量化的向量。

请注意，是 GNN 生成的节点嵌入。当时，表示残差向量。然后，通过其对应 codebook 中的最近代码向量进行近似：

生成代码，即最近代码向量的索引。

我们提出了一个简单的通用框架，通过联合训练 GNN 和 codebook 来学习 Node IDs（代码），并使用以下损失函数：

其中是（自监督/监督）图学习目标，是向量量化损失。旨在训练 GNN 生成有效的节点嵌入，而确保 codebook 向量与节点嵌入对齐。对于单个节点，定义为：

其中表示停止梯度操作，是权重参数。上式中的第一项是 codebook loss [3]，它仅影响 codebook，使所选代码向量与节点嵌入接近。第二项是 commitment loss [3]，它仅影响节点嵌入，并确保节点嵌入与所选代码向量接近。

总结：

我们的 NID 框架与 VQ-VAE [3] 及类似方法（如 VQGraph [4]）在 codebook 学习方面有所不同，我们的训练目标不涉及使用代码向量（）进行重建任务，而是通过图学习任务（）引导 codebook 学习过程。

近期研究 [5,6] 表明，经过合适调参的经典 GNNs 在节点分类和图分类任务中仍能达到 SOTA 方法的竞争性表现。因此在实验中，我们使用了经典 GNNs（GCN、GAT、SAGE、GIN）进行 Node IDs 生成。

2.2 Node IDs 在下游任务中的应用

生成的 Node IDs 可以视为高度紧凑的节点表示，并直接用于各种下游图学习任务，如下所述。

节点预测任务包括节点分类和节点聚类。对于节点分类，图中的每个节点都与一个标签相关联，表示其类别。我们可以直接利用带标签节点的 Node IDs 训练 MLP 网络进行分类。预测公式为：

对于节点聚类，可以直接将基于向量的聚类算法，如 -means，应用于 Node IDs 以获得聚类结果。

边预测任务通常涉及链接预测。目标是预测任意节点对之间是否应存在一条边。预测可以通过以下方式进行：

其中表示 Hadamard 积。

图预测任务包括图分类和图回归。这些任务涉及为整个图预测类别标签或数值。预测可以表达为：

其中对所有 Node IDs 应用全局均值池化函数，生成图的表示，然后输入 MLP 进行预测。注意，选择读取函数（如均值池化）被视为一个超参数。

实验结果

学习得到的 Node IDs 通常由 6-15 个 int4 整数组成，可作为高效的节点表示。在多个任务中，它们表现出与 SOTA 方法相当或更优的性能，同时显著提升计算速度和内存效率。

3.1 监督表示学习

▲ 监督学习实验结果

3.2 无监督表示学习

▲ 无监督学习实验结果

3.2 Node IDs 的分析

▲ Node IDs 的分析

Codebook 崩溃：发现 VQGraph 存在严重的 codebook 崩溃问题，即大多数节点被量化为少数几个代码向量，导致大部分 codebook 未被使用。相比之下，NID 实现了高 codebook 使用率，有效避免了 codebook 崩溃。

可解释性：观察 Node IDs 的码字索引分布，发现其可以有效区分不同类别的节点，具有较强的语义可解释性。

子图检索：利用 Node IDs 的 Hamming 距离进行子图匹配，效果优于现有的 VQGraph 的结果。

推理加速：在 ogbn-products (节点数百万级)上，NID 推理时间从 11.9s 降至 0.7ms。

总结

我们提出的 NID 框架可在自监督或有监督训练过程中，不引入重构损失的前提下，将多层 GNN 的连续嵌入直接量化为紧凑、离散且可解释的 Node IDs。通过广泛的实验与消融研究，我们验证了 Node IDs 在多任务、多数据集上的高效性与实用性。

相比传统 GNN 嵌入，Node IDs 不仅大幅降低推理时的内存与计算开销，而且在一系列场景中保持了有竞争力甚至更佳的预测性能。这一方法为在大规模图上实现实时、高效的推理提供了新的见解，也为后续在图数据与大模型结合（如图标记化、LLMs 应用）带来了新的思路。

（文：PaperWeekly）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复