竞逐赶超DeepSeek!月之暗面和MiniMax双双发布新模型,争锋开源SOTA

文丨谭梓馨
在开源模型领域,中国厂商们的“卷”正在为全球开发者带来越来越强悍的性能。

今天,根据基准测试开放平台lmarena.ai发布的最新消息,DeepSeek-R1-0528在WebDev Arena基准上与谷歌的Gemini-2.5-pro并驾齐驱,甚至略高于Anthropic的Claude Opus4,该基门用于比较AI模型在HTML、CSS和JavaScript等Web开发任务中的性能。

此外,R1-0528在难题类排名第4,数学类排名第5,加上MIT协议开源授权,被评为是目前排行榜上最好的开放模型。

与此同时,国内“大模型六小虎”之中的月之暗面和MiniMax今天也先后发布了最新开源模型,竞逐之中展现出赶超DeepSeek之势。

不过从当前广泛的开发者认可度和影响力而言,DeepSeek和阿里Qwen系列模型仍是开源领域的佼佼者,留给“六小虎”的机会空间能有多少尚未可知。

开源编码模型SOTA?

月之暗面发布的新模型为Kimi-Dev-72B,是一款专门面向软件工程任务的开源编码大语言模型,官方给出的数据显示,其在SWE-bench Verified基准测试中刷新了开源模型的最先进(SOTA)成果。

Kimi-Dev-72B在SWE-bench Verified基准测试中达到60.4%的性能表现,该模型通过大规模强化学习进行优化,可在Docker环境中自主修补真实代码仓库,仅当整个测试套件通过时才获得奖励,这一机制确保解决方案的正确性与鲁棒性,契合现实开发标准。

官方给出的性能指标显示超过了Qwen3-235B-A22B和DeepSeek-R1-0528,同时模型的参数仅有72B,比R1-0528的685B参数规模大大缩小。

月之暗面团队介绍了Kimi-Dev-72B的设计理念与技术细节,包括BugFixer(漏洞修复器)和TestWriter(测试生成器)双模块、中期训练、强化学习及测试时自博弈机制等。

Kimi-Dev-72B为双模块设计了相同的极简框架,仅包含两个阶段:(1)文件定位;(2)代码编辑,这种双模块设计构成了Kimi-Dev-72B的技术基石。

此外,使用约1500亿高质量真实数据进行中期训练。以Qwen 2.5-72B基础模型为起点,收集数百万GitHub问题与PR提交作为训练数据集,数据构建遵循严格规则,使模型学习开发者如何基于GitHub问题推理、编写修复代码及单元测试。

中期训练增强了基础模型在实际漏洞修复和单元测试方面的知识,为后续强化学习提供更优起点。

经过合理的中期训练与监督微调(SFT),Kimi-Dev-72B在文件定位任务中已表现出色,强化学习阶段则聚焦提升代码编辑能力。

针对SWE-bench Verified基准任务,月之暗面团队进行了3个关键设计:

    1、仅基于结果的奖励机制:仅使用Docker最终执行结果(0或1)作为奖励,训练过程中不引入任何基于格式或流程的奖励。

    2、高效提示集筛选:过滤掉模型在多样本评估中成功率为零的提示,以有效利用大批量训练;采用课程学习策略,逐步引入新提示以增加任务难度。

    3、正例强化机制:在训练最后阶段,将前几轮迭代中的成功样本纳入当前批次,帮助模型强化成功模式并提升性能。

    最终,Kimi-Dev-72B通过可扩展的问题解决任务训练获得显著提升。

    在完成强化学习训练后,Kimi-Dev-72B会同时掌握BugFixer和TestWriter的双重角色,在测试阶段,模型会采用自博弈机制来协同其漏洞修复与测试编写能力,测试时自博弈过程中,每个问题会生成最多40个补丁候选和最多40个测试候选。

    月之暗面团队表示,目前正积极研发扩展Kimi-Dev-72B能力的方法,并探索更复杂的软件工程任务,未来迭代将聚焦于与主流集成开发环境(IDE)、版本控制系统及CI/CD流水线的深度整合。

    智能体工具调用新锐选手

    Kimi-Dev-72B主攻AI编码不同,MiniMax发布的M1模型定位是全球首款开放权重的大规模混合注意力推理模型,在SWE-bench Verified基准上达到了56%的性能表现,成绩略低于Kimi-Dev-72B的60.4%。

    官方评测显示,该模型性能与原始DeepSeek-R1和Qwen3-235B等领先开放权重模型相当或更优,尤其在复杂软件工程、工具利用和长上下文任务中表现突出,聚焦语言模型智能体方向。

    MiniMax-M1采用混合专家混合(MoE)架构与闪电注意力机制相结合的设计,总参数量达4560亿,每个token激活459亿参数。

    M1模型原生支持100万tokens的上下文长度,是DeepSeek R1上下文规模的8倍,也比目前所有开放权重的大型推理模型(LRMs)大一个数量级,这种特性使M1特别适合处理需要长输入和深度推理的复杂现实任务。

    此外,在生成长度为64K tokens时,M1的浮点运算量(FLOPs)消耗不到DeepSeek R1的50%,在100K tokens长度下,仅消耗约25%的FLOPs,这种计算成本的大幅降低也使M1在推理和大规模强化学习(RL)训练中显现出更高效率。

    除了闪电注意力机制之外,MiniMax团队还提出了一种新型RL算法:CISPO,以进一步提升RL效率,CISPO通过裁剪重要性采样权重而非token更新,性能优于其他竞争性RL变体。混合注意力与CISPO的结合,使MiniMax-M1在512块H800 GPU上完成全RL训练仅需三周,算力租赁成本仅53.47万美元。

    不过,与最新的DeepSeek-R1-0528模型相比,MiniMax-M1在数学和编码竞赛中仍有差距,但在更贴近现实的工具使用和长上下文场景中性能相当或更优,另外,MiniMax-M1在智能体工具使用基准TAU-Bench上也展现出了一些高于Gemini 2.5 Pro和R1-0528的性能,在长上下文理解基准中优于OpenAI o3和Claude 4 Opus。

    “卷”中进化的开源之力

    开源模型“卷“起来让不少开发者喜出望外,实际PK起来孰强孰弱?

    有开发者网友同时比较了MiniMax-M1-80K、Kimi-Dev-72B和DeepSeek-R1-0528写代码实测,如写一个拆烟囱的demo。

    其中MiniMax-M1-80K在指令要求下一次性完成了任务,意味着它的代码训练材料足够新, 能把ES的引入一次性写对, 而且它在思考的时候反复了好几次,成功避免了可能出现的bug,不过生成的光影效果、前端页面样式等没有DeepSeek好看

    Kimi-Dev-72B同样是使用three.js生成拆烟囱demo,但生成的代码并没有一气呵成顺利完成任务,该网友用Claude-4-Sonnet修了3个bug才能运行,此外,很多模型基本需要600-800行代码才能完成的任务,Kimi-Dev-72B只生成了220行,所以很多细节没有实现,包括光影、爆炸造成的底部形变、摩擦力模拟等等,但值得肯定的是,基于Qwen2.5-72B训练实现这种程度也是下了一番功夫。
    相比月之暗面团队,MiniMax团队的这次发布显得更加有备而来,不仅有详细的技术报告,而且还展示了一些实际用例。
    如生成UI组件,只需输入提示,M1就会构建一个带有基于画布的动画粒子背景的HTML页面。
    创建迷宫生成器游戏和寻路可视化工具,随机生成一个迷宫,并逐步可视化AI算法的求解过程,使用画布和动画,使其具有视觉吸引力。
    还演示创建了一个可交互的HTML页面,其中包含基于画布的动画粒子背景,鼠标点击就会放“烟花”,效果还不错。
    单看这波PK测试,MiniMax似乎更胜一筹。
    从更宏观的层面来看,得益于国内开源模型的技术相互汲取与融合创新,中国开源模型与美国大模型领先者之间的差距正在大幅缩小,据AI研究机构Artificial Analysis分析,美国的领先优势已经从一年多缩短至不到三个月。
    此外,虽然国内大模型市场经历了一轮百模大战洗牌,但真正的市场游戏似乎才刚刚开始,除了高度独立的DeepSeek,“大模型六小虎”的背后能看到不同大厂的资本扶持,阿里和腾讯尤为突出,同时还不断有模型新势力后发入局,如小米、美团、小红书等,一种全新的市场竞争态势正逐渐呈现。

    -END-

    (文:头部科技)

    发表评论