混合奖励函数归档

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

下午4时 2025/05/27 作者量子位

阿里开源的QwenLong-L1模型在HuggingFace今日热门论文第二，其32B参数版本性能优秀。对比基础模型，QwenLong-L1通过回溯和验证机制成功处理了长文本推理中的干扰信息问题，准确计算了金融文档中涉及优先票据发行成本与第一年利息支出合并的总资本成本。