GRPO强化学习归档

小米入局大模型赛道！开源MiMo-7B，性能超o1-mini

上午11时 2025/05/01 作者 AIGC开放社区

小米发布大模型MiMo-7B，参数70亿，在数学和代码测试中表现优异。MiMo-7B架构简单且效率高，通过MTP模块加速推理。训练数据集包含多种合成推理任务生成的数据，采用三阶段混合策略优化分布。后训练阶段通过SFT调整预训练模型，并使用高质量的强化学习数据提升性能。

下午2时 2025/02/11 作者老刘说NLP

今日文章介绍了R1和知识图谱结合的粗暴实现以及强化学习在知识图谱信息抽取中的进展。具体包括开源复现DeepSeek R1的文本到图谱抽取训练方案，并回顾了昨日技术社区的进展，涉及RAG webui、推理框架KTransformers等。