GRPO算法
迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单
小米大模型团队通过微调阿里Qwen2-Audio-7B模型,结合DeepSeek-R1的GRPO算法,在MMAU评测集上实现了64.5%的准确率,显著提升31%,接近人类专家水平。
200多行代码,复旦大学超低成本复现DeepSeek R1「Aha Moment」!
复旦大学知识工场实验室团队基于 GRPO 算法高效复现 R1-zero 自发反思能力,项目代码简洁、依赖简单,资源消耗低。
DeepSeekRL-Extended:从零实现DeepSeek R1的强化学习项目
从零实现DeepSeek R1的强化学习项目,探索GRPO算法的应用,仅用单个H100 GPU400步训练提升模型性能,完全自研且提供多脚本结构。
外媒扒出多位DeepSeek核心成员履历,中国AI人才回流势不可挡
多位DeepSeek人才拥有国内外复合背景,他们选择回国投身中国的AI产业而非留在美国公司工作。梁文锋的公司不鼓励内部竞争和加班,并给予员工极大的自由度。DeepSeek吸引人才的方式独特且成功,其研究成果受到关注并获得了广泛关注。