高质量样本归档

Mamba架构实现推理性能超Gemma3-27B！推理模型开始迈入「无注意力」时代

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年2月16日12时作者量子位

上海AI Lab提出的新方法OREAL利用基于结果奖励的强化学习超越了DeepSeek，无需超大规模模型蒸馏。通过模仿正样本、偏好负样本并关注关键步骤，实现了数学推理任务上的显著提升，并开源训练数据和模型以促进研究对比。

2025年2月7日8时作者机器之心

机器之心发布
机器之心编辑部
在追求人工智能极限的道路上，”更大即更强” 似乎已成为共识。特别是在数