实测炸裂！DeepSeek-R1-0528火力全开，国产AI首次正面刚Claude 4！

DeepSeek-R1“小版本试升级”，已上Hugging Face开源。这不是普通的升级，这是“猛虎下山”！

DeepSeek-R1-0528——低调发布、高能炸场，实测结果直接封神！不夸张地说，这是目前唯一能正面刚Claude 4和Gemini 2.5 Pro的国产开源大模型！

相较于旧版 R1，新版模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试中，新版模型准确率由旧版的 70% 提升至 87.5%。

这一进步得益于模型在推理过程中的思维深度增强：在 AIME 2025 测试集上，旧版模型平均每题使用 12K tokens，而新版模型平均每题使用 23K tokens，表明其在解题过程中进行了更为详尽和深入的思考。

DeepSeek官方一如既往地谦虚，宣称是“小升级”，实际上却是一次“隐藏版本革命”：

一夜之间，开发者圈炸了——这哪是小升级？分明是“换代级爆改”！

编码能力方面，代码测试平台LiveCodeBench显示，更新后的DeepSeek-R1性能接近OpenAI在4月中旬发布的o4-mini和o3模型高版本。

据测试者反馈，DeepSeek-R1-0528能够一次性生成超千行无Bug代码，且在HTML/CSS/JS动态交互实现（如天气卡片动画、数据可视化）中更加精准。

我睡前一句话Prompt：

创建一个世界时钟面板，展示不同时区当前时间，支持切换。

睡醒一看，一个高完成度的前端页面+代码结构美学直接拉满，这生产力太顶了。

前代V3-0324已经很强，现在的0528几乎每个场景都更上一层楼。

然后我试着扔出一句：

创建一个红白机风格的“贪吃蛇”游戏前端页面。

它直接整了个像素风复古游戏，界面美感和交互都超出预期。

我不信邪，又加码一句：

创建一个动态的星空夜景，包含闪烁的星星和移动的月亮。

结果是一个视觉拉满的浪漫动画，看着那颗月亮划过星空的轨迹，我沉默了。Claude 4你出来走两步？

除代码能力外，新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至128k，长文本提取的准确率也有显著提升。

在Extended NYT Connections基准测试中，相比于前一代DeepSeek-R1，最新的0528版本的提升非常明显，得分从38.6%大幅升至49.8%。

向DeepSeek-R1提出需求：“请帮我开发一个网页端俄罗斯方块小游戏，要求包含游戏分数、彩色方块及多个关卡。”

DeepSeek仅思考了7秒，就开始输出代码。然而，初步生成的游戏无法正常运作，虽有预设的分数与关卡显示，但游戏区域内并没有俄罗斯方块。

随后，调整提示词，仅提了最基础的要求，“请帮我写个俄罗斯方块游戏（网页端），直接可以上手玩。”

简洁的指令似乎对DeepSeek-R1-0528更加奏效。这次R1思考9秒，用时约3分30秒便生成了代码。

从游戏页面来看，色彩搭配鲜明且协调，不同颜色的方块在深色背景下十分醒目，游戏区域布局合理，操作说明也清晰明了。

在游戏逻辑方面，方块的下落、移动和旋转都很流畅，没有出现延迟或卡顿现象。

可以说，已经具备了一个成熟俄罗斯方块游戏应有的功能和体验。

一个更可怕的发现：

R1-0528不挑Prompt、不装风格，不用堆关键词就能输出精品。

一句话，就够了。

以前做前端、做交互、做数据可视化要套模板、学框架、调样式，现在？直接一句中文，它自己搭框架、写结构、上样式、贴逻辑，还能响应式。

整个5月，大家都在等“DeepSeek R2”。
我现在的看法是：

你等的“R2”，其实已经来了，名字叫：DeepSeek-R1-0528。

性能不输Claude Opus 4，交互体验直追Gemini 2.5 Pro，代码能力硬刚OpenAI o3，关键是——它完全开源！

它不喧哗，但足够炸裂。

它不宣传，但已经封神。

它不说狠话，却悄悄把国产开源大模型的天花板又往上推了一层。

这，就是DeepSeek。

这，就是国产AI的觉醒时刻。

如你所见，国产AI，从没这么强。

别等了，快试吧。

体验地址：
https://huggingface.co/deepseek-ai/DeepSeek-Coder-RLHF
https://platform.deepseek.com/

（文：AI技术研习社）