WSDM 25唯一最佳论文：从谱视角揭开推荐系统流行度偏差放大之谜

近日，第 18 届国际互联网搜索与数据挖掘大会（The 18th International Conference on Web Search and Data Mining, WSDM 2025）在德国汉诺威召开。本届会议共收录了 106 篇论文，荣获大会唯一的一篇最佳论文奖（Best Paper Award）来自中国。

论文地址：https://arxiv.org/abs/2404.12008

这篇最佳论文题目为：How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective / 推荐模型如何放大流行度偏差？——基于谱视角的分析，由浙江大学计算机科学与技术学院 ZLST 实验室团队与中国科技大学、蚂蚁集团联合撰写。

这篇论文揭示了推荐系统流行度偏差放大的原因，研究团队发现：

流行度存储效应：推荐模型的评分矩阵的最大奇异向量（第一主成分）与物品的流行度向量高度相似，流行度信息几乎完全由主特征向量所捕获。
流行度放大效应：维度缩减现象加剧了流行度偏差的「放大效应」，主要源于推荐模型中用户和物品 Embedding 的低秩设定以及优化过程中的维度缩减。

为了解决这个问题，研究团队提出了一种基于正则项的方法——ReSN，通过在推荐模型的损失函数中引入谱范数正则项，约束评分矩阵的谱的权重（最大奇异值），从而缓解流行度偏差。

研究动机

推荐系统是基于用户的历史行为数据进行个性化推荐的核心技术。但你知道吗？推荐系统往往「偏爱」热门内容。

比如，在 Douban 数据集中，前 0.6% 热门物品占模型推荐物品的超过 63%，前 20% 的热门物品占了推荐列表的 99.7%。这导致冷门物品几乎无缘被推荐，用户陷入「信息茧房」，无法发现更多新鲜、有趣的内容。

这要从数据的长尾分布开始说起，用户行为数据和物品的流行度通常呈现长尾分布，而推荐模型在这样长尾分布的数据上训练学习，不仅会继承这种倾斜的分布，甚至会放大，导致热门物品被过度推荐。

推荐系统为什么会放大流行度偏差呢？

核心发现

1. 流行度记忆效应：推荐模型的评分矩阵的最大奇异向量（第一主成分）与物品的流行度向量高度相似，最大奇异向量几乎完全捕获了物品的流行度特性。

实验发现，多个推荐模型的评分矩阵的最大奇异向量（第一主成分）与物品的流行度向量的余弦相似度超过 98%!

上述现象并不是偶然的，而有严格的理论支撑！对于有 n 个用户、m 个物品的推荐系统，设推荐模型给出的评分矩阵为，我们将评分矩阵 SVD 分解为，其中最大奇异值对应的右奇异向量 q_1 捕获到了物品流行度 r∈R^m 的信息。特别地，当物品的流行度满足以 α 为参数的幂律分布时（即第 g 最流行的物品的流行度），我们证明了：