竞逐赶超DeepSeek！月之暗面和MiniMax双双发布新模型，争锋开源SOTA

文丨谭梓馨

在开源模型领域，中国厂商们的“卷”正在为全球开发者带来越来越强悍的性能。

今天，根据基准测试开放平台lmarena.ai发布的最新消息，DeepSeek-R1-0528在WebDev Arena基准上与谷歌的Gemini-2.5-pro并驾齐驱，甚至略高于Anthropic的Claude Opus4，该基准专门用于比较AI模型在HTML、CSS和JavaScript等Web开发任务中的性能。

此外，R1-0528在难题类排名第4，数学类排名第5，加上MIT协议开源授权，被评为是目前排行榜上最好的开放模型。

与此同时，国内“大模型六小虎”之中的月之暗面和MiniMax今天也先后发布了最新开源模型，竞逐之中展现出赶超DeepSeek之势。

不过从当前广泛的开发者认可度和影响力而言，DeepSeek和阿里Qwen系列模型仍是开源领域的佼佼者，留给“六小虎”的机会空间能有多少尚未可知。

开源编码模型SOTA？

月之暗面发布的新模型为Kimi-Dev-72B，是一款专门面向软件工程任务的开源编码大语言模型，官方给出的数据显示，其在SWE-bench Verified基准测试中刷新了开源模型的最先进（SOTA）成果。

Kimi-Dev-72B在SWE-bench Verified基准测试中达到60.4%的性能表现，该模型通过大规模强化学习进行优化，可在Docker环境中自主修补真实代码仓库，仅当整个测试套件通过时才获得奖励，这一机制确保解决方案的正确性与鲁棒性，契合现实开发标准。

官方给出的性能指标显示超过了Qwen3-235B-A22B和DeepSeek-R1-0528，同时模型的参数仅有72B，比R1-0528的685B参数规模大大缩小。

月之暗面团队介绍了Kimi-Dev-72B的设计理念与技术细节，包括BugFixer（漏洞修复器）和TestWriter（测试生成器）双模块、中期训练、强化学习及测试时自博弈机制等。

Kimi-Dev-72B为双模块设计了相同的极简框架，仅包含两个阶段：（1）文件定位；（2）代码编辑，这种双模块设计构成了Kimi-Dev-72B的技术基石。

此外，使用约1500亿高质量真实数据进行中期训练。以Qwen 2.5-72B基础模型为起点，收集数百万GitHub问题与PR提交作为训练数据集，数据构建遵循严格规则，使模型学习开发者如何基于GitHub问题推理、编写修复代码及单元测试。

中期训练增强了基础模型在实际漏洞修复和单元测试方面的知识，为后续强化学习提供更优起点。

经过合理的中期训练与监督微调（SFT），Kimi-Dev-72B在文件定位任务中已表现出色，强化学习阶段则聚焦提升代码编辑能力。

针对SWE-bench Verified基准任务，月之暗面团队进行了3个关键设计：

1、仅基于结果的奖励机制：仅使用Docker最终执行结果（0或1）作为奖励，训练过程中不引入任何基于格式或流程的奖励。

2、高效提示集筛选：过滤掉模型在多样本评估中成功率为零的提示，以有效利用大批量训练；采用课程学习策略，逐步引入新提示以增加任务难度。

3、正例强化机制：在训练最后阶段，将前几轮迭代中的成功样本纳入当前批次，帮助模型强化成功模式并提升性能。

最终，Kimi-Dev-72B通过可扩展的问题解决任务训练获得显著提升。

在完成强化学习训练后，Kimi-Dev-72B会同时掌握BugFixer和TestWriter的双重角色，在测试阶段，模型会采用自博弈机制来协同其漏洞修复与测试编写能力，测试时自博弈过程中，每个问题会生成最多40个补丁候选和最多40个测试候选。

月之暗面团队表示，目前正积极研发扩展Kimi-Dev-72B能力的方法，并探索更复杂的软件工程任务，未来迭代将聚焦于与主流集成开发环境（IDE）、版本控制系统及CI/CD流水线的深度整合。

智能体工具调用新锐选手

与Kimi-Dev-72B主攻AI编码不同，MiniMax发布的M1模型定位是全球首款开放权重的大规模混合注意力推理模型，在SWE-bench Verified基准上达到了56%的性能表现，成绩略低于Kimi-Dev-72B的60.4%。

官方评测显示，该模型性能与原始DeepSeek-R1和Qwen3-235B等领先开放权重模型相当或更优，尤其在复杂软件工程、工具利用和长上下文任务中表现突出，聚焦语言模型智能体方向。

MiniMax-M1采用混合专家混合（MoE）架构与闪电注意力机制相结合的设计，总参数量达4560亿，每个token激活459亿参数。

M1模型原生支持100万tokens的上下文长度，是DeepSeek R1上下文规模的8倍，也比目前所有开放权重的大型推理模型（LRMs）大一个数量级，这种特性使M1特别适合处理需要长输入和深度推理的复杂现实任务。

此外，在生成长度为64K tokens时，M1的浮点运算量（FLOPs）消耗不到DeepSeek R1的50%，在100K tokens长度下，仅消耗约25%的FLOPs，这种计算成本的大幅降低也使M1在推理和大规模强化学习（RL）训练中显现出更高效率。

除了闪电注意力机制之外，MiniMax团队还提出了一种新型RL算法：CISPO，以进一步提升RL效率，CISPO通过裁剪重要性采样权重而非token更新，性能优于其他竞争性RL变体。混合注意力与CISPO的结合，使MiniMax-M1在512块H800 GPU上完成全RL训练仅需三周，算力租赁成本仅53.47万美元。

不过，与最新的DeepSeek-R1-0528模型相比，MiniMax-M1在数学和编码竞赛中仍有差距，但在更贴近现实的工具使用和长上下文场景中性能相当或更优，另外，MiniMax-M1在智能体工具使用基准TAU-Bench上也展现出了一些高于Gemini 2.5 Pro和R1-0528的性能，在长上下文理解基准中优于OpenAI o3和Claude 4 Opus。

“卷”中进化的开源之力

开源模型“卷“起来让不少开发者喜出望外，实际PK起来孰强孰弱？

有开发者网友同时比较了MiniMax-M1-80K、Kimi-Dev-72B和DeepSeek-R1-0528写代码实测，如写一个拆烟囱的demo。

其中MiniMax-M1-80K在指令要求下一次性完成了任务，意味着它的代码训练材料足够新, 能把ES的引入一次性写对, 而且它在思考的时候反复了好几次，成功避免了可能出现的bug，不过生成的光影效果、前端页面样式等没有DeepSeek好看。

Kimi-Dev-72B同样是使用three.js生成拆烟囱demo，但生成的代码并没有一气呵成顺利完成任务，该网友用Claude-4-Sonnet修了3个bug才能运行，此外，很多模型基本需要600-800行代码才能完成的任务，Kimi-Dev-72B只生成了220行，所以很多细节没有实现，包括光影、爆炸造成的底部形变、摩擦力模拟等等，但值得肯定的是，基于Qwen2.5-72B训练实现这种程度也是下了一番功夫。

相比月之暗面团队，MiniMax团队的这次发布显得更加有备而来，不仅有详细的技术报告，而且还展示了一些实际用例。

如生成UI组件，只需输入提示，M1就会构建一个带有基于画布的动画粒子背景的HTML页面。

创建迷宫生成器游戏和寻路可视化工具，随机生成一个迷宫，并逐步可视化AI算法的求解过程，使用画布和动画，使其具有视觉吸引力。

还演示创建了一个可交互的HTML页面，其中包含基于画布的动画粒子背景，鼠标点击就会放“烟花”，效果还不错。

单看这波PK测试，MiniMax似乎更胜一筹。

从更宏观的层面来看，得益于国内开源模型的技术相互汲取与融合创新，中国开源模型与美国大模型领先者之间的差距正在大幅缩小，据AI研究机构Artificial Analysis分析，美国的领先优势已经从一年多缩短至不到三个月。

此外，虽然国内大模型市场经历了一轮百模大战洗牌，但真正的市场游戏似乎才刚刚开始，除了高度独立的DeepSeek，“大模型六小虎”的背后能看到不同大厂的资本扶持，阿里和腾讯尤为突出，同时还不断有模型新势力后发入局，如小米、美团、小红书等，一种全新的市场竞争态势正逐渐呈现。

-END-

（文：头部科技）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复