过去一年，生成式推荐 (Generative Recommendations, GRs) 在工业界取得了显著的进展。GRs 利用大语言模型 (Large Language Models, LLMs) 的序列建模与推理能力，大幅度提升了推荐效果。

基于 LLMs 的 GRs 正形成一种全新的范式，展现出取代传统依赖复杂特征的推荐系统的潜力。本文全面综述该领域，旨在推动进一步研究，涵盖基础概念、工业应用及未来方向。

论文标题：

GR-LLMs: Recent Advances in Generative Recommendation Based on Large Language Models

论文链接：

https://arxiv.org/pdf/2507.06507

背景

大语言模型概论

大预言模型 (Large Language Models, LLMs) 通过大量文本数据进行训练，具备强大的自然语言处理能力。它们通过预测下一个 token 来优化根据过去序列来预测下一个 token 的概率。

LLMs 早期主要用于处理文本数据，现已扩展到支持多模态数据 (如图像、音频、视频)，能够完成多种序列生成任务。

传统推荐系统

传统推荐系统通常采用多阶段级联架构 (召回 Recall、预排序 Pre-ranking、排序 Ranking) 以平衡效率与精度。

但是，各阶段独立运行，上一阶段的推荐效果是下一阶段推荐效果的上限，制约了整体性能。已有研究虽然尝试增强阶段间的交互，但是依旧遵循多阶段级联架构。

近期，生成式推荐 (Generative Recommendations, GRs) 作为一种统一的端到端架构崭露头角，展现出提升推荐效果的潜力。

从机器学习, 到深度学习, 再到生成式推荐

推荐系统通过分析用户画像和历史行为，推断用户兴趣，从而推荐商品、短视频、新闻等内容。推荐系统在现代数字环境中得到了广泛应用，是帮助用户应对海量信息的重要工具，对电商、社交网络、流媒体和新闻聚合平台的成功起到了关键作用。

推荐系统的发展经历了三个主要阶段:

基于机器学习的推荐 (Machine Learning-based Recommendation, MLR)。
基于深度学习的推荐 (Deep Learning-based Recommendation, DLR)。
生成式推荐 (GRs)。

MLR 依赖传统算法和人工特征工程，常用协同过滤和矩阵分解等技术，存在数据稀疏和冷启动问题。DLR 利用深度神经网络自动学习复杂特征，虽然效果更好，但是模型效率与扩展性仍有提升空间。

总的来说，MLR 和 DLR 依赖人工特征工程和复杂模型结构，存在难以解释、维护成本高、适应性差等问题。

近年来，大语言模型的兴起推动了 GRs 的发展。GRs 利用 Transformer 等架构，通过自回归方式预测用户行为，在序列建模和语义理解方面表现出色。

相关研究如 UCSD 的 SASRec、Meta 的 HSTU、谷歌的 TIGER、快手的 OneRec、美团的 MTGR 和 UNM 等。这些模型不断优化模型结构，提升了工业级推荐系统的效果。

LLM-based GR 与 MLR 和 DLR 有本质不同。其优势包括:

提升可解释性，增强用户信任。
支持创新和多样性推荐。
简化系统设计，减少人工特征工程。
大语言模型的扩展性有望进一步提升推荐性能。

本文旨在梳理 LLM-based GRs 的基础概念、应用场景及工业落地中的挑战，并展望未来研究方向，助力该领域的进一步发展。

生成式推荐: 召回, 排序, 端到端

从 2024 到 2025 年，许多公司和高校提出了多种生成式推荐系统，在工业场景中取得了显著成效。目前，GR 在在线推荐中的应用主要分为两类: 一是将生成模型集成到传统系统的召回或排序模块中; 二是直接用于端到端推荐。

召回

召回指的是推荐系统从候选物品库中筛选出相关物品。LLMs 在召回阶段的应用有三种方法：基于提示词 (prompt-based）、基于标记 (token-based) 和基于表征 (embedding-based)。

Prompt-based 方法通过设计 prompt，利用预训练大模型生成召回结果。如华为的 LLMTreeRec。
Token-based 方法将用户行为序列转化为 token 序列，将召回任务视为下一个 token 预测任务。如 Meta 的 HSTU 和快手的 KuaiFormer。
Embedding-based 方法使用 LLMs 生成物品表征，再结合传统深度学习方法。如西湖大学的 MoRec。

排序

排序是决定推荐结果质量和多样性的关键环节，通常作用于召回后的较小候选集上，可使用更复杂的模型。相比 DLR，LLMs 能通过用户行为序列直接建模用户偏好，减少特征工程，且具备更强的扩展性。

LLMs 在排序中的应用分为两类：生成式架构和混合架构。

生成式架构直接利用 LLMs 进行评分预测，如 Meta 的 HSTU 和小红书的 GenRank。
混合架构将 LLMs 生成的表征作为补充特征融入传统推荐系统，如快手的 LEARN、字节跳动的 HLLM 和美团的 SRP4CTR。

值得注意的是，美团的 MTGR 继承了生成式框架，同时保留了交叉特征，属于生成式架构和混合架构的结合。

端到端

端到端推荐指的是直接根据用户历史行为输出推荐结果。它与召回任务的区别在于是否具备排序能力并替代传统推荐链路。端到端推荐可以避免传统方法中的误差传播和目标不一致的问题。

工业应用中，快手的 OneRec 和 OneSug，美团的 EGA-V2 等模型通过生成式方法提升排序能力，实现全链路替代多阶段级联架构。

学术研究也探索了基于 DPO (Direct Preference Optimization)、负样本增强和自回放机制的强化学习方法，以提升推荐质量，为端到端推荐的发展提供了新思路。

生成式推荐：链路，推理效率，冷启动与世界知识

链路

GRs 的核心问题在于如何设计训练方法和目标以适配推荐任务。现有方法有单阶段训练和多阶段训练。

单阶段训练：模型在一个阶段完成推荐任务, 通常专注于召回或排序。如 Meta 的 HSTU、阿里巴巴的 URM 通过预测下一个物品进行召回，美团的 MTGR 则通过 CTR (Click-Through Rate) 预测实现排序。

多阶段训练：分为预训练和微调两阶段。根据微调方式不同，又分为：

基于表征的微调：如字节跳动的 HLLM、快手的 LEARN 通过对比学习生成用户和物品表征，再用于传统排序模型。
基于模型的微调：如快手的 OneRec 和 OneSug 等采用端到端框架，结合强化学习提升排序能力，适用于视频推荐和广告场景。

推理效率

GRs 在工业场景部署中面临推理延迟高的挑战。可以通过以下方式优化。

序列压缩：如小红书的 GenRank，美团的 DFGR，快手的 KuaiFormer 通过缩短序列长度降低计算成本。
模型结构优化：Meta 的 HSTU 和美团 RecFormer 改进了注意力机制，将复杂度从二次降低到线性。
专用加速技巧：谷歌的 TIGER 生成语义 ID 减少词表大小, HSTU 的 M-FALCON 和美团的 MTGR 通过掩码策略提升排序效率。这些方法有效提升了 GRs 的实时性和可扩展性。

冷启动和世界知识

冷启动问题指的是在用户或物品数据不足时生成准确推荐的问题。LLMs 可以通过两种方式缓解这一问题：

信息增强：利用 LLMs 生成的表征或知识补充推荐数据，如蚂蚁的 SAID 和清华的 CSRec；

模型推理：直接基于 LLMs 学习到的模式生成推荐结果，如 Meta 的 LLM-Rec。

LLM 的“世界知识”来源于其大规模，多领域的训练数据。Llama 和 Qwen 这些开源大模型中的“世界知识”能有效辅助推荐系统在冷启动阶段学习用户-物品交互模式。

此外，结合多模态数据 (如图像、视频、语音) 并通过对比学习对齐不同模态表示，是提升推荐性能的重要途径。

例如，小红书的 NoteLLM-2 利用视觉信息提升笔记推荐效果，TALKPLAY 通过音频和语义信息进行音乐推荐，InteraRec 从网页截图中提取商品信息。这些方法可将多模态信号融入现有生成式推荐系统，有效缓解冷启动问题。

未来方向

尺度定律

尺度定律 (Scaling law) 是大语言模型参数扩展的理论基础。传统深度学习推荐在扩展时存在两大问题：1）无法高效处理长用户行为序列；2）随着候选物品增加，训练和推理成本呈线性增长，导致费用过高。

GRs 虽已观察到一些扩展效应，但模型规模仍较小，大尺寸模型的性能提升尚未充分验证。未来，增大模型规模并处理更长的行为序列是提升推荐能力的重要方向，同时需探索高效的推理方法以满足实际应用需求。

数据清洗

训练数据质量对大语言模型性能影响显著。在 GRs 中，如何进行数据清洗仍研究不足。推荐系统的训练数据不仅包含物品 ID，还包含多模态的多源辅助信息。

由于行为序列缺乏类似自然语言中的语法校验机制，如何评估其有效性、实现质量感知的数据筛选，并建立与数据质量相关的动态训练策略，是提升推荐效果的重要方向。

统一模型

LLMs 的核心目标是通过单一模型和提示切换实现多语言任务的通用处理。近年来，LLMs 的发展推动了统一框架的研究，支持多种模态输入输出。

例如，Meta 的 HSTU 模型已能统一召回与排序，阿里巴巴的 URM 进一步提出生成式推荐可作为通用推荐学习器，支持多场景、多目标推荐等任务。

未来，通过生成式大模型实现推荐与搜索的统一，动态理解用户指令并提供个性化结果，将成为信息检索的重要研究方向。

结语

本文全面综述了基于 LLM-based GR 技术，重点介绍了其基本原理、应用场景及工业落地中的关键考量。同时，分析了其在多种场景下的能力，展望了未来发展方向，旨在为研究人员提供参考，推动该领域的持续进步。

（文：PaperWeekly）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

推荐也讲Scaling Law？召回、排序、端到端全覆盖：一文读懂生成式推荐系统架构进化

大语言模型概论

传统推荐系统

召回

排序

端到端

链路

推理效率

冷启动和世界知识

尺度定律

数据清洗

统一模型

发表评论取消回复

大语言模型概论

传统推荐系统

召回

排序

端到端

链路

推理效率

冷启动和世界知识

尺度定律

数据清洗

统一模型

发表评论 取消回复

发表评论取消回复