模型与API独立分析公司Artificial Analysis @ArtificialAnlys 对DeepSeek R1-0528结论如下：

DeepSeek R1 一举超越 xAI、Meta 和 Anthropic，与谷歌并列成为全球第二大人工智能实验室，并成为开源权重领域无可争议的领导者

DeepSeek R1 0528 版本在 Artificial Analysis 智能指数（针对所有顶尖模型独立进行的7项主流评估所构成的综合指数）中的得分从60分跃升至68分。这一提升幅度与 OpenAI 的 o1 模型到 o3 模型的差距（从62分到70分）相当

这意味着 DeepSeek R1 的智能水平已超越 xAI 的 Grok 3 mini（高水准版）、英伟达的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里的通义千问 Qwen 3 253B，并与谷歌的 Gemini 2.5 Pro 持平

模型性能提升详解

🧠 智能水平全面提升： 在 AIME 2024（数学竞赛，+21分）、LiveCodeBench（代码生成，+15分）、GPQA Diamond（科学推理，+10分）和《人类最后考卷》（推理与知识，+6分）等多个方面实现了显著飞跃

🏠 架构保持不变： R1-0528 是一个训练后更新版本，其 V3/R1 架构并未改变——依然是拥有6710亿总参数和370亿激活参数的大模型

🧑‍💻 编程能力大幅跃进： 在 Artificial Analysis 编程能力指数中，R1 目前已追平 Gemini 2.5 Pro，仅次于 o4-mini（高水准版）和 o3 模型

🗯️ Token 消耗量增加： R1-0528 在完成 Artificial Analysis 智能指数评估时消耗了9900万 Token，比初代 R1 的7100万 Token 多出40%——也就是说，新版 R1 的“思考”时间更长。但这并非我们所见过的最高 Token 消耗量：Gemini 2.5 Pro 的 Token 消耗量比 R1-0528 还要多30%

对AI领域的启示

开源与闭源模型差距前所未有地缩小： 开源权重模型在智能增益方面持续与闭源专有模型保持同步。DeepSeek 在今年1月发布的 R1 是首个达到全球第二位置的开源权重模型，而今天 R1 的更新使其重回这一高位

中美AI水平持续并驾齐驱： 来自中国AI实验室的模型几乎完全追平了美国同行，本次发布延续了这一新兴趋势。截至今日，在 Artificial Analysis 智能指数中，DeepSeek 已领先包括 Anthropic 和 Meta 在内的美国AI实验室

强化学习驱动性能提升： DeepSeek 在保持原有 R1 版本架构和预训练数据不变的情况下，实现了智能水平的显著提升。这进一步凸显了训练后调优（尤其是针对采用强化学习技术训练的推理模型）日益增长的重要性。OpenAI 曾披露其 o1 到 o3 模型的强化学习计算规模扩大了10倍——DeepSeek 刚刚证明，到目前为止，他们有能力跟上 OpenAI 在强化学习算力扩展方面的步伐。扩展强化学习所需的算力远低于扩展预训练，为实现智能增益提供了一条高效路径，尤其能为那些GPU资源相对紧张的AI实验室提供支持

source：

https://x.com/ArtificialAnlys/status/1928071179115581671

⭐

（文：AI寒武纪）

Artificial Analysis：DeepSeek成为世界前二AGI实验室

模型性能提升详解

对AI领域的启示

发表评论取消回复

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

模型性能提升详解

对AI领域的启示

发表评论 取消回复

发表评论取消回复