Artificial Analysis:DeepSeek成为世界前二AGI实验室


 

模型与API独立分析公司Artificial Analysis @ArtificialAnlys 对DeepSeek R1-0528结论如下:

DeepSeek R1 一举超越 xAI、Meta 和 Anthropic,与谷歌并列成为全球第二大人工智能实验室,并成为开源权重领域无可争议的领导者

DeepSeek R1 0528 版本在 Artificial Analysis 智能指数(针对所有顶尖模型独立进行的7项主流评估所构成的综合指数)中的得分从60分跃升至68分。这一提升幅度与 OpenAI 的 o1 模型到 o3 模型的差距(从62分到70分)相当

这意味着 DeepSeek R1 的智能水平已超越 xAI 的 Grok 3 mini(高水准版)、英伟达的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里的通义千问 Qwen 3 253B,并与谷歌的 Gemini 2.5 Pro 持平


模型性能提升详解

🧠 智能水平全面提升: 在 AIME 2024(数学竞赛,+21分)、LiveCodeBench(代码生成,+15分)、GPQA Diamond(科学推理,+10分)和《人类最后考卷》(推理与知识,+6分)等多个方面实现了显著飞跃

🏠 架构保持不变: R1-0528 是一个训练后更新版本,其 V3/R1 架构并未改变——依然是拥有6710亿总参数和370亿激活参数的大模型

🧑‍💻 编程能力大幅跃进: 在 Artificial Analysis 编程能力指数中,R1 目前已追平 Gemini 2.5 Pro,仅次于 o4-mini(高水准版)和 o3 模型

🗯️ Token 消耗量增加: R1-0528 在完成 Artificial Analysis 智能指数评估时消耗了9900万 Token,比初代 R1 的7100万 Token 多出40%——也就是说,新版 R1 的“思考”时间更长。但这并非我们所见过的最高 Token 消耗量:Gemini 2.5 Pro 的 Token 消耗量比 R1-0528 还要多30%

对AI领域的启示

开源与闭源模型差距前所未有地缩小: 开源权重模型在智能增益方面持续与闭源专有模型保持同步。DeepSeek 在今年1月发布的 R1 是首个达到全球第二位置的开源权重模型,而今天 R1 的更新使其重回这一高位

中美AI水平持续并驾齐驱: 来自中国AI实验室的模型几乎完全追平了美国同行,本次发布延续了这一新兴趋势。截至今日,在 Artificial Analysis 智能指数中,DeepSeek 已领先包括 Anthropic 和 Meta 在内的美国AI实验室

强化学习驱动性能提升: DeepSeek 在保持原有 R1 版本架构和预训练数据不变的情况下,实现了智能水平的显著提升。这进一步凸显了训练后调优(尤其是针对采用强化学习技术训练的推理模型)日益增长的重要性。OpenAI 曾披露其 o1 到 o3 模型的强化学习计算规模扩大了10倍——DeepSeek 刚刚证明,到目前为止,他们有能力跟上 OpenAI 在强化学习算力扩展方面的步伐。扩展强化学习所需的算力远低于扩展预训练,为实现智能增益提供了一条高效路径,尤其能为那些GPU资源相对紧张的AI实验室提供支持

source:

https://x.com/ArtificialAnlys/status/1928071179115581671

 






(文:AI寒武纪)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往