小米首个推理大模型突然开源!股价上涨近5%

小米开源首个推理大模型Xiaomi MiMo,7B参数量的MiMo-7B-RL在数学和代码竞赛上超过OpenAI o1-mini及阿里Qwen。研究显示通过预训练和后训练过程中的多项创新联动提升推理能力,涵盖多样化数据与高质量推理模式相结合策略的有效性。

Transformer原作、斯坦福、清华交大三篇论文共识:基座模型边界锁死RL能力上限

MLNLP社区是国内外知名的人工智能社区,致力于促进学术交流。该领域内的三篇论文讨论了强化学习在大模型训练中的作用,并指出模型的推理能力大部分已在预训练阶段形成,RL更多起到优化选择路径的作用。

从底层重构强化学习训练框架,阿里高德开源新方法:抛弃替代损失函数,仅需优化原始目标

阿里-高德团队提出组策略梯度优化GPG方法,仅需优化原始目标,解决已有方法偏差,提高训练效率。在实验中,GPG性能全面超越现有方法,有望成为下一代基础模型训练的关键方法。

北航推出全开源TinyLLaVA-Video-R1,小尺寸模型在通用视频问答数据上也能复现Aha Moment!

北京航空航天大学推出小尺寸视频推理模型TinyLLaVA-Video-R1,其在通用问答数据集上进行强化学习效果显著。该工作引入人工标注的冷启动数据、长度奖励与答案错误惩罚,并为优势计算引入微小噪声,验证了小尺寸模型在视频推理中的潜力。