精确率与召回率归档 - 每时AI

QwenLong-L1：迈向具备长上下文推理能力的大型语言模型的强化学习方法

2025年5月28日8时作者 NLP工程化

本文提出了一种强化学习框架QwenLong-L1，旨在提升大语言模型在长上下文中的泛化能力，并通过逐步扩展上下文长度、混合奖励函数等方法实现这一目标。