QwenLong-L1:迈向具备长上下文推理能力的大型语言模型的强化学习方法 上午8时 2025/05/28 作者 NLP工程化 本文提出了一种强化学习框架QwenLong-L1,旨在提升大语言模型在长上下文中的泛化能力,并通过逐步扩展上下文长度、混合奖励函数等方法实现这一目标。