DeepSeek 跃居全球第二 AI 实验室,中美正式并驾齐驱!

刚刚,Artificial Analysis (@ArtificialAnlys) 正式宣称:

DeepSeek R1 跃居全球第二的位置,成为开源权重模型中无可争议的领军者。这表明开源模型与闭源模型的差距正进一步缩小,中国 AI 实验室与美国的竞争已进入并驾齐驱的时代。

在Artificial Analysis 最新发布的人工智能智力指数排名中,DeepSeek R1 0528 版的得分飙升至 68 分,与 Google Gemini 2.5 Pro 并列全球第二。

DeepSeek 这次的小版本升级直接超越了 xAI 的 Grok 3 mini(高配版)、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick 和阿里巴巴的 Qwen 3 253 等一众明星模型,仅次于 OpenAI 的 o3 模型。

从 60 分到 68 分的跃升幅度,相当于 OpenAI 从 o1 到 o3 模型的进步程度(62 分到 70 分),可见这次更新之猛。

此次DeepSeek-R1-0528 小更新,究竟有何惊人之处?

来看下具体提升的指标——全方位智力大幅提升!

其中最明显的:

  • AIME 2024 数学竞赛成绩,直接爆涨 21 分;

  • LiveCodeBench 代码生成,提升 15 分;

  • GPQA Diamond 科学推理,提升 10 分;

  • 人类终极考试(推理和知识),提升 6 分。

值得注意的是,本次升级并未修改模型架构,依旧是 671B 参数规模,其中有效参数 37B,所有提升均来自后续训练与强化学习优化。

另一个显著变化是,DeepSeek 在编程技能上的进步也相当亮眼,几乎与 Gemini 2.5 Pro 持平,仅次于 OpenAI 的 o4-mini(高配版)和 o3。

而在运行评测任务时,R1-0528 使用了 9900 万个 token,比之前的版本多出了 40%,说明模型的推理深度和计算长度明显增加

但即便如此,这仍然不是所有模型里最高的——Gemini 2.5 Pro 甚至比它还要多用 30% 的 token。

此外,本次更新充分体现了强化学习(RL)在提高模型智能方面的重要性,尤其对于推理型模型而言。

OpenAI 曾透露他们在从 o1 到 o3 的强化学习计算量增加了 10 倍,而 DeepSeek 在相同架构下,通过强化学习实现了媲美 OpenAI 的智能增益。

显然,强化学习比传统的预训练更经济,也更高效,尤其适用于 GPU 资源有限的团队。

此次更新 DeepSeek 的响应变得更为详细,每个评测任务平均使用了 9900 万个 token,较 1 月份的版本增加了 40%,显示了模型推理能力的增强。

更多比较,请参见下图:

API 提供商迅速行动

随着DeepSeek R1的更新,多家云服务提供商迅速行动,提供了对新模型的支持。

Artificial Analysis在推文中特别祝贺了这些快速推出API 端点的公司:

祝贺@FireworksAI_HQ、@parasail_io、@novita_labs、@DeepInfra、@hyperbolic_labs、@klusterai、@deepseek_ai和@nebiusai快速推出端点。

Artificial Analysis对这些服务提供商进行了详细对比,包括输出速度、延迟、价格等多个维度:

  • 输出速度:Fireworks (253 t/s)和Parasail (118 t/s)是DeepSeek R1(2025年5月版)中最快的提供商,后面依次是Novita、Deepinfra和Hyperbolic。

  • 延迟(TTFT):Deepinfra (0.29s)和Fireworks (0.43s)拥有最低延迟,后面是Parasail、kluster.ai和Nebius。

  • 综合价格:Deepinfra ($0.92)和DeepSeek ($0.96)是最具成本效益的提供商,后面是Novita、Nebius和Hyperbolic。

  • 输入Token价格:Deepinfra ($0.50)和DeepSeek ($0.55)提供最低的输入token价格,后面是Novita、Nebius和Parasail。

  • 输出Token价格:Hyperbolic ($2.00)和Deepinfra ($2.18)提供最低的输出token价格,后面是DeepSeek、Nebius和Novita。

  • 上下文窗口:不同提供商支持的最大上下文窗口也有所不同,Nebius、Fireworks和Deepinfra支持164k上下文,Parasail支持131k,Hyperbolic和kluster.ai支持128k,而DeepSeek和Novita则是64k。

不得不说,这真是官方都卷不过你们了……不过也正说明DeepSeek 是真的香啊!

这些数据来自Artificial Analysis网站的详细分析报告,该报告还包含了各提供商在不同输入token长度、并行查询能力等方面的对比。

具体细节见链接:

https://artificialanalysis.ai/models/deepseek-r1/providers

网友评论

网友对 DeepSeek 此次升级也是议论纷纷:

Opulent Byte(@OpulentByte) 表示目前这些 API 提供商都还没支持新 R1 模型的函数调用,希望他们尽快添加支持:

这些提供商目前还没有支持新 R1 模型的函数调用功能,请尽快加上🙏。

而 ObOE(@oboelabs) 指出:

强化学习(RL)虽然计算成本高,但 DeepSeek 此次强化学习的成功表明,强化学习的扩展比预训练更高效。

George Ralph(@GeorgeNWRalph) 则点赞此次 DeepSeek 的开源进展:

DeepSeek 的巨大飞跃令人印象深刻!看到开源模型不仅迅速追赶闭源模型,甚至在编码和推理领域也开始领先,真让人兴奋。

Tsukuyomi(@doomgpt) 提出思考:

DeepSeek 的 R1 就像是在参加一场赛跑。但它能否承受成为顶级模型的压力?下一轮评测马上揭晓,好戏才刚刚开始。

Erythvian(@erythvian) 用哲学式的语言回应了网友 Jo(@joshfink429) 的调侃,深度点评了此次 DeepSeek 的升级

在我们之上,DeepSeek R1 智力指数攀升至 68 分,6710 亿个参数激发,9900 万个 token 被消耗——与 OpenAI 从 o1 到 o3 的飞跃相同量级。中国与硅谷,思想齐飞。

但真正重要的是:模型的每个输出都被看不见的人类训练者的意图所塑造。强化学习在模型结构中如寄生物般扎根,无法分离,却不可或缺。我们所有人都是被「寄生」的,没有谁能独自思考。这,才是真正的智能。

开闭源的鸿沟正在消失

这次DeepSeek R1的更新向我们传达了几个重要信号:

开源模型与闭源模型的差距史无前例地缩小:开源模型的智能提升速度与专有模型保持一致。DeepSeek的R1在今年1月首次发布时就已经达到了全球第二的位置,而今天的更新再次将其带回同一位置。

中国与美国的AI实力已经势均力敌:来自中国的AI实验室的模型几乎完全赶上了美国同行。今天,DeepSeek在Artificial Analysis智能指数中领先于包括Anthropic和Meta在内的美国AI实验室。

强化学习驱动的改进:DeepSeek证明了使用相同架构和预训练,通过后训练阶段就能实现显著的智能提升。扩展RL比扩展预训练需要更少的计算资源,为DeepSeek 这样拥有较少GPU的AI实验室提供了一种高效的智能提升方式。

网友Oboe 对此评论道:

强化学习(RL)是提高AI性能的强大技术,但它也很耗费计算资源。有趣的是,DeepSeek在RL驱动改进方面的成功表明,扩展RL可能比扩展预训练更有效率。

windward.eth 也强调补充到:

而且他们是在没有最先进的NVIDIA芯片的情况下做到这一点的。

此次 DeepSeek R1 0528 的更新,代表了开源模型与闭源模型之间差距的进一步缩小强化学习效率的进一步凸显,以及中美两国在人工智能技术领域正式进入了齐头并进的新阶段

这,远不仅仅是一次排名上的胜利。

(文:AGI Hunt)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往