R1圈的新王者,腾讯混元-T1发布,首个混合Mamba推理模型~

今天,腾讯发布深度思考模型混元-T1正式版强化学习驱动,业内首个超大规模混合Mamba推理模型,在各类公开benchmark上基本持平或略超DeepSeek-R1外,在内部人工体验集评估上也能对标,比如agent能力方面略有胜。

测试下来速度还挺快:
https://llm.hunyuan.tencent.com/#/chat/hy-t1

腾讯混元T1的训练技术主要体现在以下几个方面:

1. 基于超大规模Hybrid-Transformer-Mamba MoE大模型TurboS基座

  • 长文捕捉能力:TurboS架构能够有效解决长文推理中上下文丢失和长距离信息依赖问题,提升长文推理能力。

  • 优化长序列处理:Mamba架构专门优化了长序列处理能力,通过高效计算方式,在保证长文本信息捕捉能力的同时,显著降低计算资源消耗,解码速度提升2倍。

2. 强化学习训练

  • 算力投入:在模型后训练阶段,96.7%的算力投入到强化学习训练,重点提升纯推理能力及对齐人类偏好。

  • 数据集构建:收集了涵盖数学、逻辑推理、科学、代码等领域的世界理科难题数据集,并结合ground-truth的真实反馈,确保模型在多种推理任务中表现出色。

  • 训练方案:采用课程学习方式,逐步提升数据难度并阶梯式扩展模型上下文长度,使模型在提升推理能力的同时学会高效利用token进行推理。

  • 训练策略:参考经典强化学习的数据回放和阶段性策略重置策略,显著提升模型训练的长期稳定性(50%以上)。

3. 对齐人类偏好

  • 奖励系统:采用self-rewarding(基于T1-preview早期版本对模型输出进行综合评价、打分)+ reward mode的统一奖励系统反馈方案,指导模型自我提升。

  • 效果提升:模型在答复中展现出更丰富的内容细节和更高效的信息传递。

https://llm.hunyuan.tencent.com/#/blog/hy-t1

(文:PaperAgent)

欢迎分享

发表评论