DeepSeek节前又双叒叕搞事，R1“小版本试更新”代码能力实测堪比Claude 4

作者｜沐风

来源｜AI先锋官

临近端午假期，DeepSeek官方宣布DeepSeek R1模型已完成小版本试升级，欢迎前往官方网页、App、小程序测试（打开深度思考），API接口和使用方式保持不变。

果然符合DeepSeek的作风，节前搞事。

紧接着，在今天凌晨，官方又在HuggingFace上开源了DeepSeek-R1-0528。

开源地址：

https://huggingface.co/DeepSeek-ai/DeepSeek-R1-0528/tree/main

不过，DeepSeek官方此次并没有公布版本更新的具体内容。

有消息称，该模型是基于DeepSeek-V3-0324训练（参数为660B）。

据众多开发者测试发现，DeepSeek-R1-0528目前提升最为明显的也是代码能力。

在代码测试平台Live CodeBench中，其性能几乎媲美OpenAI的o3-high和o4-mini（Medium)超越了Gemini 2.5 Flash。

AI博主同时也是KCORES开源硬件项目联合创始人“karminski-牙医”使用DeepSeek-R1-0528和Claude-4-Sonnet进行了对比测试。

在Prompt相同，且一次性生成的情况下， Claude-4-Sonnet生成了542行, DeepSeek-R1-0528生成了728行。

从平面的橙色漫反射、控制面板的美观程度、撞击后的运动方向等效果上看，DeepSeek-R1-0528更加出色。

另外，根据其他网友的测试结果显示，DeepSeek-R1-0528在前端设计的审美、编码能力上也已经达到了Claude 4 Sonnet水准。

例如：

大家可以自行对比。

X博主Haider.更是直接称赞到“这是我在这个任务上测试过的最好的模型”，他让DeepSeek-R1-0528构建一个单词评分系统。

DeepSeek-R1-0528简要思考后，一次性生成两个文件，一个是主程序，一个是测试脚本，代码结构清晰，逻辑闭环，首次运行就顺利通过，没有报错。

该博主称，此前，o3是唯一能完成这个任务的模型，DeepSeek-R1-0528是第二个，堪称是完成这个任务的最佳型。

不过，DeepSeek-R1-0528在编程能力的全面性上还是有一点点不足。

例如，缺少多模态能力，它不能像Claud那样通过截图来描述代码错误，调试比较麻烦。

但即便如此，它在代码生成方面已经稳稳站在了Claude 3.7和Claude 4之间的水平。

另外，它的进步也远不止于代码能力。

“karminski-牙医”还对其进行了文本召回测试。

发现DeepSeek-R1-0528在上下文32K以内比之前的R1模型要好不少，但是在60K的上下文中效果下降了不少。

这意味着在32K以内针对给定的材料向DeepSeek-R1-0528提问问题，它回答的准确度会更好。

同时，也有开发者总结此次更新的另外几个亮点：

·能像Google模型一样深度推理文本生成优化；

·写作任务，更自然、格式更好；

·不仅仅是快速，而且深思熟虑；

·单任务处理时长可达30-60分钟。

不过，最具争议的一点是，思考时间更长，有网友实测后，R1思考时长超过了25分钟。

有网友认为，它的思考过程之所以很长，是为了弥补推理能力，导致响应速度比较慢。

但也有网友认为，长思考可以让它给出的答案更加准确。

例如，有网友提到，DeepSeek-R1-0528是目前唯一一个能稳定正确回答“9.9-9.11 等于多少?”的模型。

虽然官方称此次R1是“小版本试升级”，但在网友看来却是一次实打实的真升级。

许多网友不禁让感叹，如果这是R1，那么R2会有多好？

但此次DeepSeek-R1-0528的发布也意味着R2恐怕还得再等等。

DeepSeek该不会觉得只要不是模型架构更新，只是能力变强就不算大版本升级？

（文：AI先锋官）