实测思维链大变！DeepSeek R1一个“小升级”性能直逼o3，但仍“过度思考”？

节前更新似乎已经是 DeepSeek 的惯例了。刚刚，DeepSeek 在 Huggingface 平台开源了 R1 的新版本 DeepSeek-R1-0528。

项目地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

据悉，新版本主要是在推理精度和代码生成速度的升级。在 Live CodeBench 基准测试中，DeepSeek-R1-0528 的性能可以媲美 OpenAI 的 o3（High）版本。

DeepSeek 官方对该版本的介绍是一次“小版本试升级”。不过，目前 DeepSeek 并没有发布有关新版本训练方法的技术报告。

不少用户都第一时间去实测了最新的 DeepSeek R1-0528，并整理出了升级亮点：

有实测用户表示，DeepSeek R1-0528 似乎是唯一一个始终正确回答“9.9 – 9.11 是多少”的模型。

但他也称，“从我尝试的编码问题来看，它的性能比旧的 R1 好，但它落后于 o3 和 Claude 4。”

也有用户反映了该版本“过度思考”的问题，表示“给它一个高中数学题，它思考了 6 分钟多才做出回应。”

值得注意的是，R1 的思维链（CoT）行为似乎发生了重大变化。有网友评价，“之前的看起来就像 o 系列的推理，现在的则与 Gemini 类似。”也有网友认为，“无论如何，它的 CoT 更加‘面向用户’。”

活动推荐

6 月 27～28 日的 AICon 北京站将继续聚焦 AI 技术的前沿突破与产业落地，围绕 AI Agent 构建、多模态应用、大模型推理性能优化、数据智能实践、AI 产品创新等热门议题，深入探讨技术与应用融合的最新趋势。欢迎持续关注，和我们一起探索 AI 应用的无限可能！

21 页 PDF 实锤 Grok 3“套壳”Claude？Grok 3 玩自曝，xAI工程师被喷无能！

印度国家级大模型上线两天仅 300 余次下载，投资人直呼“尴尬”：韩国大学生模型都有20万！

顶刊论文“飙脏话辱骂第二作者”，期刊回应；刚上线就卡塞？昆仑万维：已限流；马斯克宣布回归 7×24 小时工作状态 | AI周报

用印度程序员冒充 AI 的“独角兽”彻底倒闭了！伪 AI 烧光 5 亿美元，连微软和亚马逊都被“坑”了

全球最强编码模型 Claude 4 震撼发布：自主编码7小时、给出一句指令30秒内搞定任务，丝滑无Bug

你也「在看」吗？👇

（文：AI前线）