DeepSeek-R1“小版本试升级”,已上Hugging Face开源。这不是普通的升级,这是“猛虎下山”!

DeepSeek-R1-0528——低调发布、高能炸场,实测结果直接封神!不夸张地说,这是目前唯一能正面刚Claude 4和Gemini 2.5 Pro的国产开源大模型!

相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试中,新版模型准确率由旧版的 70% 提升至 87.5%。
这一进步得益于模型在推理过程中的思维深度增强:在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型平均每题使用 23K tokens,表明其在解题过程中进行了更为详尽和深入的思考。

DeepSeek官方一如既往地谦虚,宣称是“小升级”,实际上却是一次“隐藏版本革命”:
-
✅ 代码能力暴涨,LiveCodeBench逼近OpenAI o3
-
✅ 上下文长度扩展到128k,长文本提取能力肉眼可见的提升
-
✅ 推理能力质变,推理速度甚至比o3、o4mini还快
一夜之间,开发者圈炸了——这哪是小升级?分明是“换代级爆改”!
编码能力方面,代码测试平台LiveCodeBench显示,更新后的DeepSeek-R1性能接近OpenAI在4月中旬发布的o4-mini和o3模型高版本。
据测试者反馈,DeepSeek-R1-0528能够一次性生成超千行无Bug代码,且在HTML/CSS/JS动态交互实现(如天气卡片动画、数据可视化)中更加精准。

我睡前一句话Prompt:
创建一个世界时钟面板,展示不同时区当前时间,支持切换。
睡醒一看,一个高完成度的前端页面+代码结构美学直接拉满,这生产力太顶了。

前代V3-0324已经很强,现在的0528几乎每个场景都更上一层楼。
然后我试着扔出一句:
创建一个红白机风格的“贪吃蛇”游戏前端页面。
它直接整了个像素风复古游戏,界面美感和交互都超出预期。

我不信邪,又加码一句:
创建一个动态的星空夜景,包含闪烁的星星和移动的月亮。
结果是一个视觉拉满的浪漫动画,看着那颗月亮划过星空的轨迹,我沉默了。Claude 4你出来走两步?
除代码能力外,新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至128k,长文本提取的准确率也有显著提升。
在Extended NYT Connections基准测试中,相比于前一代DeepSeek-R1,最新的0528版本的提升非常明显,得分从38.6%大幅升至49.8%。

向DeepSeek-R1提出需求:“请帮我开发一个网页端俄罗斯方块小游戏,要求包含游戏分数、彩色方块及多个关卡。”

DeepSeek仅思考了7秒,就开始输出代码。然而,初步生成的游戏无法正常运作,虽有预设的分数与关卡显示,但游戏区域内并没有俄罗斯方块。
随后,调整提示词,仅提了最基础的要求,“请帮我写个俄罗斯方块游戏(网页端),直接可以上手玩。”
简洁的指令似乎对DeepSeek-R1-0528更加奏效。这次R1思考9秒,用时约3分30秒便生成了代码。

从游戏页面来看,色彩搭配鲜明且协调,不同颜色的方块在深色背景下十分醒目,游戏区域布局合理,操作说明也清晰明了。
在游戏逻辑方面,方块的下落、移动和旋转都很流畅,没有出现延迟或卡顿现象。
可以说,已经具备了一个成熟俄罗斯方块游戏应有的功能和体验。
一个更可怕的发现:
R1-0528不挑Prompt、不装风格,不用堆关键词就能输出精品。
一句话,就够了。
以前做前端、做交互、做数据可视化要套模板、学框架、调样式,现在?直接一句中文,它自己搭框架、写结构、上样式、贴逻辑,还能响应式。
整个5月,大家都在等“DeepSeek R2”。
我现在的看法是:
你等的“R2”,其实已经来了,名字叫:DeepSeek-R1-0528。
性能不输Claude Opus 4,交互体验直追Gemini 2.5 Pro,代码能力硬刚OpenAI o3,关键是——它完全开源!
它不喧哗,但足够炸裂。
它不宣传,但已经封神。
它不说狠话,却悄悄把国产开源大模型的天花板又往上推了一层。
这,就是DeepSeek。
这,就是国产AI的觉醒时刻。
如你所见,国产AI,从没这么强。
别等了,快试吧。
https://huggingface.co/deepseek-ai/DeepSeek-Coder-RLHF
https://platform.deepseek.com/
(文:AI技术研习社)