实测炸裂!DeepSeek-R1-0528火力全开,国产AI首次正面刚Claude 4!

DeepSeek-R1“小版本试升级”,已上Hugging Face开源。这不是普通的升级,这是“猛虎下山”!

DeepSeek-R1-0528——低调发布、高能炸场,实测结果直接封神!不夸张地说,这是目前唯一能正面刚Claude 4和Gemini 2.5 Pro的国产开源大模型!

相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试中,新版模型准确率由旧版的 70% 提升至 87.5%。

这一进步得益于模型在推理过程中的思维深度增强:在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型平均每题使用 23K tokens,表明其在解题过程中进行了更为详尽和深入的思考。

DeepSeek官方一如既往地谦虚,宣称是“小升级”,实际上却是一次“隐藏版本革命”:

  • ✅ 代码能力暴涨,LiveCodeBench逼近OpenAI o3

  • ✅ 上下文长度扩展到128k,长文本提取能力肉眼可见的提升

  • ✅ 推理能力质变,推理速度甚至比o3、o4mini还快


一夜之间,开发者圈炸了——这哪是小升级?分明是“换代级爆改”!

编码能力方面,代码测试平台LiveCodeBench显示,更新后的DeepSeek-R1性能接近OpenAI在4月中旬发布的o4-mini和o3模型高版本。


据测试者反馈,DeepSeek-R1-0528能够一次性生成超千行无Bug代码,且在HTML/CSS/JS动态交互实现(如天气卡片动画、数据可视化)中更加精准。

我睡前一句话Prompt:

创建一个世界时钟面板,展示不同时区当前时间,支持切换。

睡醒一看,一个高完成度的前端页面+代码结构美学直接拉满,这生产力太顶了。

前代V3-0324已经很强,现在的0528几乎每个场景都更上一层楼。

然后我试着扔出一句:

创建一个红白机风格的“贪吃蛇”游戏前端页面。

它直接整了个像素风复古游戏,界面美感和交互都超出预期。

我不信邪,又加码一句:

创建一个动态的星空夜景,包含闪烁的星星和移动的月亮。

结果是一个视觉拉满的浪漫动画,看着那颗月亮划过星空的轨迹,我沉默了。Claude 4你出来走两步?

除代码能力外,新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至128k,长文本提取的准确率也有显著提升


在Extended NYT Connections基准测试中,相比于前一代DeepSeek-R1,最新的0528版本的提升非常明显,得分从38.6%大幅升至49.8%。

向DeepSeek-R1提出需求:“请帮我开发一个网页端俄罗斯方块小游戏,要求包含游戏分数、彩色方块及多个关卡。”

DeepSeek仅思考了7秒,就开始输出代码。然而,初步生成的游戏无法正常运作,虽有预设的分数与关卡显示,但游戏区域内并没有俄罗斯方块。


随后,调整提示词,仅提了最基础的要求,“请帮我写个俄罗斯方块游戏(网页端),直接可以上手玩。”


简洁的指令似乎对DeepSeek-R1-0528更加奏效。这次R1思考9秒,用时约3分30秒便生成了代码。

从游戏页面来看,色彩搭配鲜明且协调,不同颜色的方块在深色背景下十分醒目,游戏区域布局合理,操作说明也清晰明了。


在游戏逻辑方面,方块的下落、移动和旋转都很流畅,没有出现延迟或卡顿现象。


可以说,已经具备了一个成熟俄罗斯方块游戏应有的功能和体验。


一个更可怕的发现:

R1-0528不挑Prompt、不装风格,不用堆关键词就能输出精品。

一句话,就够了。

以前做前端、做交互、做数据可视化要套模板、学框架、调样式,现在?直接一句中文,它自己搭框架、写结构、上样式、贴逻辑,还能响应式。

整个5月,大家都在等“DeepSeek R2”。
我现在的看法是:

你等的“R2”,其实已经来了,名字叫:DeepSeek-R1-0528

性能不输Claude Opus 4,交互体验直追Gemini 2.5 Pro,代码能力硬刚OpenAI o3,关键是——它完全开源

它不喧哗,但足够炸裂。

它不宣传,但已经封神。

它不说狠话,却悄悄把国产开源大模型的天花板又往上推了一层。

这,就是DeepSeek。

这,就是国产AI的觉醒时刻。

如你所见,国产AI,从没这么强。

别等了,快试吧。

体验地址:
https://huggingface.co/deepseek-ai/DeepSeek-Coder-RLHF
https://platform.deepseek.com/

(文:AI技术研习社)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往