ICCV 2025｜突破线性注意力瓶颈！MALA：记忆Query幅值的神经注意力机制

↑ 点击蓝字关注极市平台

作者丨科技猛兽

编辑丨极市平台

极市导读

本文揭示了传统线性注意力在忽略Query向量幅值后，导致注意力分布过于平滑、缺乏自适应性的问题，并提出了Magnitude‑Aware Linear Attention (MALA)，通过引入 Query 幅值缩放使其能够模拟 Softmax Attention 的“尖锐”分布，同时保留线性复杂度。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

本文目录

1MALA：幅值感知的线性注意力机制
(来自中科院，国科大)
1 MALA 论文解读
1.1 MALA 论文背景
1.2 Preliminary
1.3 Linear Attention 的问题：忽略幅值
1.4 幅值感知的线性注意力机制
1.5 实验结果

太长不看版

Softmax Attention 是有很好的全局建模得能力。但是其二次方的计算复杂度也比较影响其在视觉任务中的应用。反之，Linear Attention 与 Softmax Attention 具有相似的公式，同时实现线性复杂度，来进行高效的全局信息建模。然而，如图 1 所示，与标准 Softmax Attention 相比，线性注意力会遭受显着的性能下降。

本文分析了这个问题的潜在原因，发现：Linear Attention 完全丢弃了 Query 中的幅值信息 (Magnitude Information)。这会阻碍 Attention Score 动态地适应 Query 的 Scale。带来的问题就是：尽管在结构上与 Softmax Attention 相似，但是 Attention Score 的分布却大不相同。

基于此观察，本文提出了幅值感知的线性注意力 (Magnitude-Aware Linear Attention，MALA) 。MALA 将 Query 的幅值融合进了 Linear Attention 的计算中。这调整允许 MALA 生成与 Softmax Attention 非常相似的注意力分数分布，同时表现出更平衡的结构。

1 MALA：幅值感知的线性注意力机制

论文名称：Rectifying Magnitude Neglect in Linear Attention (ICCV 2025)

论文地址：

https://arxiv.org/pdf/2507.00698

代码链接：

https://github.com/qhfan/MALA

1.1 MALA 论文背景

Softmax Attention 卓越的全局建模能力使视觉 Transformer 在各种视觉任务中取得优异的性能，如图像分类、目标检测和语义分割。但是，Transformer 的核心算子 Softmax Attention具有相对于 token 数量呈现二次方的计算复杂度，计算成本高，阻碍了其在视觉领域的广泛应用。

Linear Attention 从根本上消除了 Softmax 操作。如图 1 所示，通过删除 Softmax 操作，重新排列的计算顺序，使得 Linear Attention 具有相对于 token 数量呈现线性的计算复杂度。虽然 Linear Attention 和 Softmax Attention 的形式非常相似，但是 Softmax 操作去掉了之后还是会带来一些挑战，比如性能严重变差。

图1：Softmax Attention 和 Linear Attention 之间的比较。虽然线性注意力提供了线性复杂度和高计算效率，但与 Softmax Attention 相比，其建模能力不足

1.2 Preliminary

给定一个长度为和维度的输入标记序列，第个标记的输出可以表示为：

其中，为可学习矩阵， ) 是相似度函数。经典的 Softmax Attention 中，。这需要计算每对 Query 和 Key 的指数值，带来的复杂度。

Linear Attention 采用核函数来近似相似度函数，并将和映射为正实数。相似度函数为。基于这种转换，Linear Attention 可以改写为：

在这种计算形式中，的操作顺序从变为。Linear Attention将计算复杂度从降低为。但是，计算复杂性的降低也会相应地导致性能下降。

1.3 Linear Attention 的问题：忽略幅值

本文分析了 Linear Attention 的计算公式，并观察到它完全忽略了 Query 的幅值信息，只保留其方向分量。因此，与 Softmax Attention 相比，Linear Attention 在注意力分数分布方面表现出显著的差异。

图2：不同 Attention 的注意力分数分布对比。随着 Query 幅值的增加，Softmax Attention 中的 Attention Score 分布变得越来越尖峰，把更多的注意力集中在 Attention Score 本就比较高的 Key 上面。相比之下，Linear Attention 的 Attention Score 分布不怎么变，导致相对平滑的 Attention Score 分布

具体来讲，如图 2 所示，对于固定方向，随着 Query 的幅值增加，Softmax Attention 中的 Attention Score 分布变得越来越尖峰 (spiky)，把更多的注意力集中在 Attention Score 原本就比较高的 Key 上面。相比之下，由于计算方式本身的问题，Linear Attention 常常做不到这点，它要么保持固定的 Attention Score 分布，要么变化很小。

这个现象可能可以解释为啥 Linear Attention 的 local perception 很弱，以及很容易产生过度平滑的 Attention Score[1][2]。

这个现象作者也给了一些分析：

定义：

其中，表示的幅值（Magnitude），表示其方向向量。将此表达式代入 Linear Attention 的公式，得到：

从上式中我们可以观察到 Linear Attention 中的大小信息完全被忽略。因此，只要保持固定，Linear Attention 的 Attention Score 的分布就可以保持不变。

这种现象导致 Linear Attention 和 Softmax Attention 的注意力分数分布存在显著的差异。在 Softmax Attention 中，完全考虑了的大小。给定之后，那两个不同的 Key：的 Attention Score 之比由下式给出：

现在假设为分配了更高的注意力权重，即。当的方向保持不变并且其大小乘以时，的 Attention Score 之比变为：

式中，由于，因此。

由于在所有的上的 Attention Score 的总和为 1 ，式 5 和 6 表明，随着的幅值的增加，的注意力变得更加集中于＂原本 Attention Score 较高的 Key＂上面，而越来越不集中于＂原本 Attention Score 较低的 Key＂上面。

然而，对于 Linear Attention，这种情况不会出现。与的 Attention Score 之比由下式给出：

式 7 表明，无论的大小如何变化，Linear Attention 中的 Attention Score 始终保持相同的分布，不会聚焦于特定的 Key。这种区别解释了为什么与 Softmax Attention 相比， Linear Attention 学习的注意力分数不那么尖峰，以及为什么学习到的特征表现出较弱的局部性。

除了上述理论分析外，作者还进行了实验验证。如图 3 所示。基于 DeiT－T，作者将 Softmax Attention 中的重写为，从而忽略幅值信息。可以观察到模型性能显着下降，与基于 Linear Attention 的模型的性能相似。

作者在图 4 中可视化了注意力分数，发现分布收敛到 Linear Attention 的分布，变得更加平滑和失去局部性。

图4：不同模型的 Attention Score 可视化。当 Q 被替换为 Q/||Q|| 时，Softmax Attention 表现出类似 Linear Attention 的分布，变得更加平滑，失去局部性

1.4 幅值感知的线性注意力机制

为了弥合 Linear Attention 和 Softmax Attention 之间的差距，本文的目标是在 Linear Attention 中融入幅值信息，并表现出与 Softmax Attention 相似的变化趋势。

本文提出了幅值感知的线性注意力机制 (Magnitude-Aware Linear Attention, MALA)。MALA 引入了一个 scaling factor 和一个 offset term，同时丢弃基于除法的归一化，改为基于加法的归一化：

式中，

当将所有 Attention Score 视为正值时，对和的 Attention Score 之比由下式给出：

假设给分配了更高的 Attention Score，即以及。当的方向保持不变，其大小乘以时，新的和可以写成：

此时，对和的 Attention Score 之比变为：

式中，由于以及，可以直接证明。［证明 1］

据此我们可以进一步证明，当将所有注意力分数视为正值时，。［证明 2］

此外，由于，随着的大小的增加，MALA 更多地关注那些原本就具有更高 Attention Score 的 Key，更少地关注那些原本就具有更低 Attention Score的 Key，这种行为类似于 Softmax Attention。

证明 1：。

证：因为，则：

展开有：

因为，因此。根据式 14，有：

得证。

证明 2：。

证：定义：

假设将更多的注意力分配给，因此有：。考虑一个的函数：

函数对的导数可以写成：

根据式 10 ，推出。

根据式 12 ，推出。

根据式 15，成立。又因为函数对单调递增，有：。因此：。

得证。

尽管随着或的大小的增加，Softmax Attention 和 MALA 都表现出更集中的注意力分数分布的趋势，但两者的速率不同。

从式 6 中可以看出，在 Softmax Attention 中，Attention Score 的比值相对于的 scaling factor 呈指数增长。

从式 12 中可以看出，在 Linear Attention 中，Attention Score 的比值相对于的 scaling factor 呈分数增长。

MALA 中的变化小于 Softmax Attention 中的变化，可能会帮助 MALA 在性能上优于 Softmax Attention。

如图5所示，可视化了不同机制的 Attention Score。可以看出，Softmax Attention 的分数太 spiky，主要关注局部区域。相比之下，Linear Attention 的分数过于平滑，过度忽略局部信息。MALA 有效地平衡了这两个方面，表明 MALA 中的逐渐变化会导致 Attention Score的分布更合适。

图5：Attention Score 可视化。模型：DeiT-T。Softmax Attention 的结果太过 spiky，主要关注局部区域。Linear Attention 的结果太过平滑。MALA 的结果有效平衡了这两个方面

再把 Value 考虑进去，得到 MALA 的完整公式为：

式中，

1.5 实验结果

ImageNet 图像分类

图 6 是 ImageNet-1K 实验结果。在模型大小相当的情况下，MAViT 取得了最好的结果。使用 98M 参数和 16.1G FLOPs，MAViT-L 达到了 86.0% 的精度。这结果超过了 Linear Attention 方法 MILA，提高了 0.7%。此外，MAViT-S 仅使用 27M 参数和 4.6G FLOPs 实现了 84.7% 的精度，超过了更大的 MILA-S。

目标检测和实例分割

如图 7 和 8 所示，MAViT 与基于 Linear Attention 的其他模型相比表现出显著的优势。此外，它在所有模型尺度上超越了利用 Softmax Attention 的模型。具体来说，MAViT-B 在 Cascade Mask R-CNN 框架下实现了 55.5APb 和 48.0APm，甚至超过了更大的 CSwin-B (53.9APb 和 46.4APm)。

图7：目标检测与实例分割结果。3× +MS schedule 下，与其他 Backbone 对比

图8：目标检测与实例分割结果。1× schedule 下，与其他 Backbone 对比

语义分割

如图 9 所示，MAViT 在各种大小上都优于其他模型。具体来说，MAViT-B 在 UperNet 框架下实现了 52.8 mIoU，超过了更大的 MILA。MAViT-L甚至可以达到 53.6 mIoU。

推理效率

图 10 展示了不同模型在低分辨率任务上的推理效率，其中 MAViT 在吞吐量和准确性之间取得了最佳平衡。同样，对于高分辨率任务，图 11 中的结果进一步突出了 MAViT 的卓越性能。这表明 MALA 不仅的理论复杂度明显低于 Softmax Attention，而且在实践中也实现了较高的推理速度。

图10：低分辨率任务上的推理速度比较。推理速度在 A100 上测试，Batch Size 为 64

图11：高分辨率任务上的推理速度比较。推理速度在 A100 上测试，Batch Size 为 1

语言模型实验

作者基于 15B token 训练了 0.3B MALA 模型，并在几个常用的基准上评估模型。结果如图 12 所示，在四种常用的基准 (LMB、PIQA、Hella 和 Wino) 中，MALA 表现出强大的性能。

生成模型实验

结果如图 13 所示，与基于 ConvNet 或者 Transformer 的其他方法相比，基于 MALA 的模型表现出更好的性能和更快的速度，证明了 MALA 的优越性。

参考

Efficientvit: Lightweight multi-scale attention for highresolution dense prediction
Flatten transformer: Vision transformer using focused linear attention

（文：极市干货）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31