月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1

Kimi-Dev-72B是首个在SWE-bench Verified编程基准测试中取得全球最高开源模型成绩的代码大模型,参数量仅为72B。通过大规模强化学习优化,Kimi-Dev-72B不仅能在错误修复和单元测试方面表现出色,还支持自我博弈机制以同时担任BugFixer和TestWriter的角色。

新版Gemini 2.5所有榜一,谷歌无敌了!一个月全面击败o3,编程反超Claude 4

谷歌发布了Gemini 2.5 Pro,仅用一个月就碾压了旧版。新版模型在数学、编程和推理方面表现卓越,稳居所有榜单第一。它引入了‘思考预算’功能,并提升了代码生成的质量。

豆包1.5深度思考模型发布:暴砍参数量,能看图思考,数学编程超DeepSeek-R1

字节跳动发布豆包1.5·深度思考模型,采用MoE架构,参数量为200B,激活参数仅20B,在多项基准测试中达到或接近全球第一梯队水平,具备‘边想边搜’、视觉理解等实用能力。