推荐也讲Scaling Law?召回、排序、端到端全覆盖:一文读懂生成式推荐系统架构进化


过去一年,生成式推荐 (Generative Recommendations, GRs) 在工业界取得了显著的进展。GRs 利用大语言模型 (Large Language Models, LLMs) 的序列建模与推理能力,大幅度提升了推荐效果。


基于 LLMs 的 GRs 正形成一种全新的范式,展现出取代传统依赖复杂特征的推荐系统的潜力。本文全面综述该领域,旨在推动进一步研究,涵盖基础概念、工业应用及未来方向。



论文标题:

GR-LLMs: Recent Advances in Generative Recommendation Based on Large Language Models

论文链接:

https://arxiv.org/pdf/2507.06507


背景

大语言模型概论


大预言模型 (Large Language Models, LLMs) 通过大量文本数据进行训练,具备强大的自然语言处理能力。它们通过预测下一个 token 来优化根据过去序列来预测下一个 token 的概率。


LLMs 早期主要用于处理文本数据,现已扩展到支持多模态数据 (如图像、音频、视频),能够完成多种序列生成任务。


传统推荐系统




传统推荐系统通常采用多阶段级联架构 (召回 Recall、预排序 Pre-ranking、排序 Ranking) 以平衡效率与精度。


但是,各阶段独立运行,上一阶段的推荐效果是下一阶段推荐效果的上限,制约了整体性能。已有研究虽然尝试增强阶段间的交互,但是依旧遵循多阶段级联架构。


近期,生成式推荐 (Generative Recommendations, GRs) 作为一种统一的端到端架构崭露头角,展现出提升推荐效果的潜力。



从机器学习, 到深度学习, 再到生成式推荐

推荐系统通过分析用户画像和历史行为,推断用户兴趣,从而推荐商品、短视频、新闻等内容。推荐系统在现代数字环境中得到了广泛应用,是帮助用户应对海量信息的重要工具,对电商、社交网络、流媒体和新闻聚合平台的成功起到了关键作用。


推荐系统的发展经历了三个主要阶段

  • 基于机器学习的推荐 (Machine Learning-based Recommendation, MLR)。

  • 基于深度学习的推荐 (Deep Learning-based Recommendation, DLR)。

  • 生成式推荐 (GRs)。


MLR 依赖传统算法和人工特征工程,常用协同过滤和矩阵分解等技术,存在数据稀疏和冷启动问题。DLR 利用深度神经网络自动学习复杂特征,虽然效果更好,但是模型效率与扩展性仍有提升空间。


总的来说,MLR 和 DLR 依赖人工特征工程和复杂模型结构,存在难以解释、维护成本高、适应性差等问题。


近年来,大语言模型的兴起推动了 GRs 的发展。GRs 利用 Transformer 等架构,通过自回归方式预测用户行为,在序列建模和语义理解方面表现出色。


相关研究如 UCSD 的 SASRec、Meta 的 HSTU、谷歌的 TIGER、快手的 OneRec、美团的 MTGR 和 UNM 等。这些模型不断优化模型结构,提升了工业级推荐系统的效果。


LLM-based GR 与 MLR 和 DLR 有本质不同。其优势包括: 

  • 提升可解释性,增强用户信任。

  • 支持创新和多样性推荐。

  • 简化系统设计,减少人工特征工程。

  • 大语言模型的扩展性有望进一步提升推荐性能。


本文旨在梳理 LLM-based GRs 的基础概念、应用场景及工业落地中的挑战,并展望未来研究方向,助力该领域的进一步发展。



生成式推荐: 召回, 排序, 端到端

从 2024 到 2025 年,许多公司和高校提出了多种生成式推荐系统,在工业场景中取得了显著成效。目前,GR 在在线推荐中的应用主要分为两类: 一是将生成模型集成到传统系统的召回排序模块中; 二是直接用于端到端推荐


召回


召回指的是推荐系统从候选物品库中筛选出相关物品。LLMs 在召回阶段的应用有三种方法:基于提示词 (prompt-based)、基于标记 (token-based) 和基于表征 (embedding-based)。

  • Prompt-based 方法通过设计 prompt,利用预训练大模型生成召回结果。如华为的 LLMTreeRec。

  • Token-based 方法将用户行为序列转化为 token 序列,将召回任务视为下一个 token 预测任务。如 Meta 的 HSTU 和快手的 KuaiFormer。

  • Embedding-based 方法使用 LLMs 生成物品表征,再结合传统深度学习方法。如西湖大学的 MoRec。


排序


排序是决定推荐结果质量和多样性的关键环节,通常作用于召回后的较小候选集上,可使用更复杂的模型。相比 DLR,LLMs 能通过用户行为序列直接建模用户偏好,减少特征工程,且具备更强的扩展性。


LLMs 在排序中的应用分为两类:生成式架构和混合架构。

  • 生成式架构直接利用 LLMs 进行评分预测,如 Meta 的 HSTU 和小红书的 GenRank。

  • 混合架构将 LLMs 生成的表征作为补充特征融入传统推荐系统,如快手的 LEARN、字节跳动的 HLLM 和美团的 SRP4CTR。


值得注意的是,美团的 MTGR 继承了生成式框架,同时保留了交叉特征,属于生成式架构和混合架构的结合。


端到端


端到端推荐指的是直接根据用户历史行为输出推荐结果。它与召回任务的区别在于是否具备排序能力并替代传统推荐链路。端到端推荐可以避免传统方法中的误差传播和目标不一致的问题。


工业应用中,快手的 OneRec 和 OneSug,美团的 EGA-V2 等模型通过生成式方法提升排序能力,实现全链路替代多阶段级联架构。


学术研究也探索了基于 DPO (Direct Preference Optimization)、负样本增强和自回放机制的强化学习方法,以提升推荐质量,为端到端推荐的发展提供了新思路。



生成式推荐:链路,推理效率,冷启动与世界知识

链路




GRs 的核心问题在于如何设计训练方法和目标以适配推荐任务。现有方法有单阶段训练和多阶段训练。


单阶段训练:模型在一个阶段完成推荐任务, 通常专注于召回或排序。如 Meta 的 HSTU、阿里巴巴的 URM 通过预测下一个物品进行召回,美团的 MTGR 则通过 CTR (Click-Through Rate) 预测实现排序。


多阶段训练:分为预训练微调两阶段。根据微调方式不同,又分为:

  • 基于表征的微调:如字节跳动的 HLLM、快手的 LEARN 通过对比学习生成用户和物品表征,再用于传统排序模型。

  • 基于模型的微调:如快手的 OneRec 和 OneSug 等采用端到端框架,结合强化学习提升排序能力,适用于视频推荐和广告场景。


推理效率


GRs 在工业场景部署中面临推理延迟高的挑战。可以通过以下方式优化。

  • 序列压缩:如小红书的 GenRank,美团的 DFGR,快手的 KuaiFormer 通过缩短序列长度降低计算成本。

  • 模型结构优化:Meta 的 HSTU 和美团 RecFormer 改进了注意力机制,将复杂度从二次降低到线性。

  • 专用加速技巧:谷歌的 TIGER 生成语义 ID 减少词表大小, HSTU 的 M-FALCON 和美团的 MTGR 通过掩码策略提升排序效率。这些方法有效提升了 GRs 的实时性和可扩展性。


冷启动和世界知识


冷启动问题指的是在用户或物品数据不足时生成准确推荐的问题。LLMs 可以通过两种方式缓解这一问题:

 

信息增强:利用 LLMs 生成的表征或知识补充推荐数据,如蚂蚁的 SAID 和清华的 CSRec;


模型推理:直接基于 LLMs 学习到的模式生成推荐结果,如 Meta 的 LLM-Rec。


LLM 的“世界知识”来源于其大规模,多领域的训练数据。Llama 和 Qwen 这些开源大模型中的“世界知识”能有效辅助推荐系统在冷启动阶段学习用户-物品交互模式。




此外,结合多模态数据 (如图像、视频、语音) 并通过对比学习对齐不同模态表示,是提升推荐性能的重要途径。


例如,小红书的 NoteLLM-2 利用视觉信息提升笔记推荐效果,TALKPLAY 通过音频和语义信息进行音乐推荐,InteraRec 从网页截图中提取商品信息。这些方法可将多模态信号融入现有生成式推荐系统,有效缓解冷启动问题。



未来方向

尺度定律


尺度定律 (Scaling law) 是大语言模型参数扩展的理论基础。传统深度学习推荐在扩展时存在两大问题:1)无法高效处理长用户行为序列;2)随着候选物品增加,训练和推理成本呈线性增长,导致费用过高。


GRs 虽已观察到一些扩展效应,但模型规模仍较小,大尺寸模型的性能提升尚未充分验证。未来,增大模型规模并处理更长的行为序列是提升推荐能力的重要方向,同时需探索高效的推理方法以满足实际应用需求。


数据清洗


训练数据质量对大语言模型性能影响显著。在 GRs 中,如何进行数据清洗仍研究不足。推荐系统的训练数据不仅包含物品 ID,还包含多模态的多源辅助信息。


由于行为序列缺乏类似自然语言中的语法校验机制,如何评估其有效性、实现质量感知的数据筛选,并建立与数据质量相关的动态训练策略,是提升推荐效果的重要方向。


统一模型


LLMs 的核心目标是通过单一模型和提示切换实现多语言任务的通用处理。近年来,LLMs 的发展推动了统一框架的研究,支持多种模态输入输出。


例如,Meta 的 HSTU 模型已能统一召回与排序,阿里巴巴的 URM 进一步提出生成式推荐可作为通用推荐学习器,支持多场景、多目标推荐等任务。


未来,通过生成式大模型实现推荐与搜索的统一,动态理解用户指令并提供个性化结果,将成为信息检索的重要研究方向。




结语


本文全面综述了基于 LLM-based GR 技术,重点介绍了其基本原理、应用场景及工业落地中的关键考量。同时,分析了其在多种场景下的能力,展望了未来发展方向,旨在为研究人员提供参考,推动该领域的持续进步。



(文:PaperWeekly)

发表评论