火线实测: DeepSeek V3重新定义“小更新”,编码能力比肩Claude3.7 超 R1

作者沐风
来源AI先锋官

3月24日,DeepSeek在其官方交流群宣布称,“DeepSeek V3模型已完成小版本升级,欢迎前往官方网页、APP、小程序试用体验(关闭深度思考),API接口和使用方式保持不变。”
据悉,此次更新的版本号为V3-0324,其开源版本目前已经上架Hugging Face。

这一版本虽被官方称为“小更新”,但其技术能力表现再次让人震惊。

DeepSeek-V3作为去年12月发布的自研MoE模型,凭借671B参数在多项评测中超越Qwen2.5-72B和Llama-3.1-405B等开源模型,性能接近GPT-4o与Claude-3.5-Sonnet等闭源顶尖模型。

此次V3-0324作为一款参数规模达685B的混合专家(MoE)模型,其性能在编程、数学推理等核心领域实现了显著提升。

根据开发者社区的实测反馈,其编码能力已接近国际顶尖闭源模型Claude 3.7 Sonnet,尤其是在前端代码生成和复杂逻辑处理中,表现出更高的准确性与流畅性。

例如,在处理多线程异步任务或动态网页交互设计时,模型能生成更符合工程规范的代码结构,甚至能主动提示潜在的性能优化点。

在X上,有专业用户对V3-0324、V3-old、Claude 3.5、Claude 3.7下达了同样的任务,实际产出的效果也出现了巨大差异。

提示词:创建包含CSS和JavaScript的单个HTML文件,以生成动画天气卡。卡片应以不同的动画直观地表示以下天气状况:风:(例如,移动的云、摇曳的树木或风线) 雨:(例如,落下的雨滴、形成的水坑) 太阳:(例如,闪亮的光线、明亮的背景) 雪:(例如,飘落的雪花、积雪) 并排显示所有天气卡片 卡片应具有深色背景。在此文件中提供所有HTML、CSS和JavaScript代码。JavaScript应包括一种在不同天气条件之间切换的方法(例如,一个函数或一组按钮),以演示每种天气条件的动画。

提示词:“创建 Saas 登陆页面”

可以看出,V3-0324的编码能力比之前的老版本v3的能力要强的多,并且已经接近目前号称“编程能力最强模型”Claude3.7了。

有网友利用 github 开源评测环境,对DeepSeek-V3-0324 进行了代码实测。

DeepSeek-V3-0324 以 328.3 分在 KCORES 大模型竞技场排名第三,仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 ,超越了DeepSeek-R1、claude-3.7-sonnet 等。
要知道,DeepSeek-V3-0324不是一个 Thinking 模型!
四项评测中——
20 个小球碰撞测试:肉眼可见的进步,之前 DeepSeek-V3 的小球挤成一团,现在物理运动模拟得非常好,仅因掉出了7边形扣了5分,项目排名第5。
mandelbrot-set-meet-libai 测试:没有过多变化,分数较DeepSeek-V3 低了2分,主要还是将渲染方向搞反了以至于拖累了渲染性能,但是完成度可以看到比之前高很多,项目排名第12。
火星任务测试:巨大的提升,这次星球,图例均渲染正确,甚至发射和返回窗口计算也有很大进步,项目排名并列第2 。
九大行星模拟测试:也是巨大的提升,它是测试的25个模型中,唯一一个画了土星环的大模型!(画土星环就如同画时钟要写3,6,9,12),项目排名并列第13。
此外, V3-0324延续了与R1一样的开源许可MIT,这意味着V3-0324有着比初代V3更宽松的开源使用条件。
并且MIT开源许可一向以商业友好而著称,使用MIT许可的项目可以与商业和专有软件集成。
总体而言,DeepSeek-V3-0324 表现出来的技术能力进化让人难以相信这只是个小版本迭代,不是 R2,甚至不是 V4。
 这让我们比期待 ChatGPT5 ,更数倍的期待 DeepSeek-R2 的发布了!
 

(文:AI先锋官)

欢迎分享

发表评论