国产AI王炸!新版DeepSeek-V3惊艳亮相,数学94%碾压Claude,剑指GPT-4.5!

DeepSeek 刚刚发布的新模型 DeepSeek-V3-0324 正在国内及海外社区掀起一股新的浪潮。

前情提要:DeepSeek 新模型上线:6850亿参数的 DeepSeek-V3 再进化!

继昨天在 Hugging Face 社区上传新模型文件后,DeepSeek 官方也添加了这个模型的详情卡片(Model Card)。

同时,DeepSeek 官方也确认了已经把新模型在 官网 及 开放平台 API 同步上线。

而在 DeepSeek 开放平台的 “更新日志” 中,也添加了这次更新的详情。

那么,DeepSeek-V3-0324 和前代 DeepSeek-V3 相比,到底更新了什么?强在哪里?


先来看 DeepSeek 官方放出的基准测试结果。

注意,DeepSeek-V3-0324 是一个不会思考的通用模型,所以官方也都挑选的是最顶级的 “非思考” 通用模型,如 OpenAI 的 GPT-4.5、Anthropic 的 Claude 3.7 Sonnet、以及阿里千问的 Qwen Max(全名应为 Qwen2.5-Max)。

先说结论:DeepSeek-V3-0324 很强,绝对的 TOP 水准

MMLU-Pro,大学水平知识测验,DeepSeek-V3-0324 以 81.2% 的准确率排在第二,仅次于参数量史无前例大的 GPT-4.5。和 Claude 3.7 Sonnet 则几乎持平。

GPQA-Diamond,极具挑战的高难度问答,DeepSeek-V3-0324 得分 68.4%,比前一代模型增长了约 9%,依旧仅次于 GPT-4.5 的 71.4%。这个基准测试对于这些 “非思考” 模型来说,很难。

MATH-500,专注于数学领域的基准测试,DeepSeek-V3-0324 准确率 94%,全场最高。

AIME 2024,2024年美国数学邀请赛,竞赛级别的数学题目,DeepSeek-V3-0324 综合得分 59.4%,以绝对实力排名第一。第二名为前代 DeepSeek-V3,准确率仅有 39.6%。

LiveCodeBench,编程能力测试,DeepSeek-V3-0324 同样是第一名,49.2%。超越了 GPT-4.5 和 Claude 3.7 Sonnet


同时,DeepSeek 官方的更新日志中也详细描述了 DeepSeek-V3-0324 的优化项。

简单总结。

首先是推理能力的增强。这一点在上面基准测试结果的分析中已经体现的淋漓尽致。

其次是已经在网上引起热议的 “编程能力”,尤其是前端开发。这一点其实和 Claude 3.7 Sonnet 非常相似。主要体现在代码准确率的提升,以及模型本身审美的提升。另外还有一点值得一提,新模型的输出长度比之前要好不少(以官网来看)。

接着是中文写作能力。官方表示 DeepSeek-V3-0324 对中文写作的风格和内容进行了优化,风格和 DeepSeek-R1 对齐,内容主要是中长篇写作质量的提升。

功能增强方面有三点:多轮交互改写能力提升,大白话就是上下文把握的更好了;翻译质量和书信类写作的优化中文搜索能力的优化

这里不得不给 DeepSeek 点个赞,优化项目很多都是针对中文任务的,中国人自己的 AI!

最后就是我在昨天的文章里提到的 bug 修复。本次更新修复了之前 Function Calling 重复调用的问题,主要是针对开发者的。


接下来附上我针对 DeepSeek-V3-0324 的一个测试。

下面的测试都是在 DeepSeek 官网进行的。

这是近期非常流行的一个前端开发测试 —— 天气卡片。完整提示词非原创,来自于论坛某位大佬。

你是一位就职于苹果公司的顶级前端工程师。请创建一个包含CSS和JavaScript的HTML文件,用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况:

  • 风力(如:飘动的云朵、摇曳的树木或风线)
  • 降雨(如:下落的雨滴、形成的水洼)
  • 晴天(如:闪耀的光线、明亮的背景)
  • 下雪(如:飘落的雪花、积雪效果)

所有天气卡片需要并排显示,背景采用深色设计。所有代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能(例如通过函数或按钮组),以演示每种天气的动画效果。

将前端显示效果优化得更精致流畅,打造出价值20元/月的精品天气应用既视感。

DeepSeek-V3-0324 的表现除了惊艳,还是惊艳。生成的天气卡片总代码长度 625 行,总输出时长大约 3 分钟,能明显感受到推理能力和代码能力的提升。

先来看最终效果。

DeepSeek 的整段输出实在太长,我这里截取部分回答以做展示。

另外值得一提的是,DeepSeek 黑色代码框的右下角有一个 运行 HTML 的按钮,支持一键运行 HTML 代码了!

在 DeepSeek 官网运行后的效果是这样的(动态效果,仅截图做展示)。

结语

颤抖吧,OpenAI、Claude、Gemini



我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

欢迎分享

发表评论