四大顶尖模型对决!6000 字测评带你看Deepseek R1有多强

昨天 Deepseek-R1 0528 正式开源。

在 LiveCodeBench 上,它的表现几乎与 OpenAI 的 o3 (high) 相当;在 Aider 的多语言基准测试中,与 Claude Opus 不相上下。

在官网上线的时候藏师傅快速测试了一下前端能力,发现强的离谱,于是就想整个大活。

我用同样的提示词,分别发给 Claude Opus 4、Sonnet 4、Gemini 2.5 Pro 以及 DeepSeek R1-0528,让它们在六个越来越变态的前端开发任务中一决高下。

知道有些朋友等不及,先说结论:

Deepseek-R1-0528 在前端能力上稍逊于 Opus4,彻底超过了 Sonnet 4 以及 Gemini 2.5 Pro。

基本上 Opus 可以完成的任务 R1 都能完成,,甚至 Opus 4 不能完成的 R1 也可以完成,只是完成度和结果质量上稍微差一些。

考虑到 R1 跟这三者的价格差异,这个成绩已经非常邪门了,tmd 无法想象 R2 的质量。

这个测试真的是又费钱又费人, 直接把 POE 额度 Claude 额度还有API 都烧没了,希望各位可以给点个赞或者喜欢,我们开始看案例。


测试 1:仓库管理系统

先来一个昨天跑的比较复杂的效果,我会让这四个模型分别生成一个完整的仓库管理系统,支持商品管理、商品的出库、入库、还有对应的看板。

提示词:请帮我创建一个完整的网页版商品管理工具,具体要求如下:

功能需求

1. 商品管理

  • 商品信息录入:商品名称、种类/分类、SKU编号、价格、库存数量
  • 商品图片管理:支持图片上传预览(可用文件选择器模拟)
  • 商品列表展示:表格形式展示所有商品,支持搜索和筛选
  • 商品编辑:支持修改商品信息
  • 商品删除:支持删除商品(需确认提示)

2. 库存管理

  • 入库操作:增加商品库存数量,记录入库时间和数量
  • 出库操作:减少商品库存数量,记录出库时间和数量
  • 库存记录:显示每个商品的库存变动历史

3. 界面功能

  • 仪表板:显示商品总数、库存总值、低库存预警等统计信息
  • 响应式设计:适配桌面和移动设备
  • 数据持久化:使用localStorage保存数据

技术要求

样式和图标

  • CSS框架:使用 TailwindCSS 3.0+ CDN引入
  • 图标库:使用 Heroicons 或 Feather Icons CDN引入
  • 字体:使用 Google Fonts

代码结构

  • 单页面应用:HTML + CSS + JavaScript
  • 模块化设计:将功能分解为不同的JavaScript模块
  • 数据格式:使用JSON格式存储商品数据

界面设计要求

  • 现代化UI:简洁美观的界面设计
  • 颜色方案:使用专业的商务色彩搭配
  • 交互反馈:按钮点击、表单验证等交互效果
  • 表单验证:必填字段验证、数据格式验证

数据结构示例

请生成完整的HTML文件,包含所有必要的CSS和JavaScript代码,确保功能完整且可以直接在浏览器中运行。

我们来看一下这个测试的结果,其实逻辑挺复杂的,对于模型的上下文长度、审美和逻辑处理能力都是考验。

这个案例上除了 Deepseek 全部翻车了,Claude 4 翻的有点离谱了说实话。

Deepseek-R1-0528:R1 的升级版非常强,你看这个界面非常的专业,而且也可以新建商品,正常执行出库入库,把商品、库存管理、库存报表分了三个页面整体非常清晰,还有一个专门的看板页,他还写了一些假数据方便测试,其他几个模型没数据,添加商品不能用,测试就完全没办法进行了。

Claude Opus 4:上来就拉了坨大的,页面非常简单,采用的是顶部导航的方式,而不是 Saas 平台常见的侧边栏,而且添加商品一点保存就报错,测试没办法进行了。

Claude Sonnet 4:相较于 Opus 4 的界面更加的简陋,而且点击添加商品按钮就没有反应了,都没有展开表单弹窗,那其他的页面自然都是摆设。

Gemini 2.5 Pro:谷歌这个比 Claude 好点,可以添加商品可以运行,但是有 Bug,我第一次试的时候可以,录视频就不行了,不过 Gemini 的交互设计的很复杂,出入库和记录都在一个表格里面,有点难度分。


测试 2:点阵动画编辑器

接下来是一个考验视觉能力的测试,我让他们几个分别用 P5.js 做一个点阵动画的编辑器,支持运动方式、调整点的形状、大小、速度等一堆条件。

提示词:请创建一个基于P5.js的全屏互动点阵动画生成器,满足以下技术需求:

## 核心功能

– 使用P5.js实现全屏点阵动画,动画需覆盖整个视口区域

– 点阵矩阵总面积必须至少是可见区域的10倍,确保即使在最小网格间距下也能完全覆盖

– 提供多种动画模式:波浪(Wave)、脉冲(Pulse)、涟漪(Ripple)、噪声(Noise)

– 支持多种点形状选择:圆形、方形、十字、三角形、菱形等

– 所有控制面板放置在页面右侧,移动设备下可折叠至底部

## 可调节参数

– 点阵密度:控制每行/每列点的数量

– 形状大小:调整点的尺寸

– 动画速度:控制动画效果的速度和幅度

– 网格间距:调整点与点之间的距离

## 技术规范

– 使用HTML5、TailwindCSS 3.0+(通过CDN引入)和P5.js

– 实现完整的深色/浅色模式切换功能,默认跟随系统设置

– 代码需包含性能优化逻辑,仅渲染可见区域内及边缘附近的点

– 动画必须流畅运行,无卡顿

## 响应式设计

– 页面必须在所有设备上(手机、平板、桌面)完美展示

– 移动端视图中,控制面板应可折叠/展开

– 针对不同屏幕尺寸优化布局和字体大小

– 确保移动端有良好的触控体验

## 界面要素

– 动画模式选择器(波浪、脉冲、涟漪、噪声)

– 形状选择器(带图标展示各种形状)

– 滑块控制:密度、大小、速度、间距

– 主题切换按钮

– 显示矩阵覆盖信息和总点数

来看一下结果,说实话,我是没想到这个测试其他模型会这么惨烈的,除了 Deepseek-R1 其他几个模型的动画完全都没办法动。

Deepseek-R1-0528:非常完美,每个按钮和滑块都能正常操作,点整也在正常运动。他甚至给加了点阵的数据,夜间模式切换后颜色也没问题,如果非要挑刺的话就是颜色选择的选中状态有一点点问题,但是这个问题相较于其他几个模型的惨烈表现根本不算问题。

Claude Opus 4:好消息有点阵,坏消息它不动的,右边的内容倒是可以正常操作,但是夜间模式切换后的配色有问题。

Claude Sonnet 4:这个就别说了,相当拉跨,点阵都没有的,甚至连按钮的选中态都没有,滑块只有点,不如用默认组件呢。

Gemini 2.5 Pro:也是报错没有点阵,右侧内容都正常操作,主题切换也没问题,不过用的默认组件美观度差点。


测试 3:图片渐变色提取工具

这个是我之前写过的一个工具,逻辑描述不多,样式描述多一点,主要功能是从图片中提取五组渐变色。

提示词:根据以下文件内容生成一个 HTML 网页,支持给上传的图片提取5组渐变色,用户可以直接复制五组16进制渐变色,需要实现颜色提取功能

1. 使用 网易云音乐 风格的视觉设计,白色色底配合与#FE1110相近的颜色作为高亮

3. 强调超大字体或数字突出核心要点,画面中有超大视觉元素强调重点,与小元素的比例形成反差

3. 中英文混用,中文大字体粗体,英文小字作为点缀

4. 简洁的勾线图形化作为数据可视化或者配图元素

5. 运用高亮色自身透明度渐变制造科技感,但是不同高亮色不要互相渐变

6. 模仿 apple 官网的动效,向下滚动鼠标配合动效

7. 数据可以引用在线的图表组件,样式需要跟主题一致

7. 使用 Framer Motion (通过CDN引入)

7. 使用HTML5、TailwindCSS 3.0+(通过CDN引入)和必要的JavaScript

8. 使用专业图标库如Font Awesome或Material Icons(通过CDN引入)

9. 避免使用emoji作为主要图标

10. 左下角胶囊按钮展示作者的推特,名称为:歸藏,链接为:XXXX

这个案例上 Claude 终于是扬眉吐气正常了,Deepseek-R1-0528 的页面细节和美观度非常厉害,但是没有实现功能,Opus 4 和 Sonnet 4 页面都简陋些,但是起码功能是好的,Gemini 则都不行。

Deepseek-R1-0528:Deepseek 再用上了我的提示词之后页面的美学表现真是没得说,而且他还自己给页面加了很多方便 SEO 的内容,比如应用场景介绍,处理时间等等,渐变色的展示卡片也非常细致,就是没有实现取色逻辑。

Claude Opus 4:这次 Claude 终于没让人失望,完成了页面功能,但页面内容非常简陋,基本只有一个放图片的和结果,而且取色逻辑也很差,但起码能用了。

Claude Sonnet 4:Sonnet 4 也完成了功能,我甚至觉得 Sonnet 的结果比 Opus 还要好一些,当然丰富度上还是没有 Deepseek 强。

Gemini 2.5 Pro:这次是最拉的,不止页面细节和美观度不行,功能也没有实现,启动直接报错。


测试 4:白噪音日签网站

接下来是一个可以播放白噪音的日签网站生成,很适合做新标签页的插件,支持从 Spotify 播放白噪音,网页会展示

提示词:请帮我创建一个简洁优雅的日签网站,具体要求如下:

视觉设计

  • 背景图片:使用下面几个图片链接随机获取高质量风景图片作为背景
  • 图片链接:XXXX
  • 图片处理:添加25% 黑色遮罩,和一点点图片高斯模糊,确保文字清晰可读
  • 整体风格:简约现代,风景图作为网页背景增加沉浸感
  • 动画框架使用 anime.js (通过CDN引入:JsDelivr jsdelivr.com),使用HTML5、TailwindCSS 3.0+(通过CDN引入)和必要的JavaScript,使用专业图标库如Font Awesome或Material Icons(通过CDN引入)

时间显示模块

  • 顶部:显示月日格式(如”05月29日”),字体较小,居中
  • 次行:显示”星期X · 农历X月初X”格式,字体更小
  • 中央:突出显示当天日期数字,超大字体,白色,居中

名言展示模块

  • 内容:随机显示中外哲学家、作家的经典名言
  • 排版:名言居中显示,字体适中,行间距舒适
  • 署名:底部右对齐显示”作家,XXX”或”哲学家,XXX”
  • 名言库:包含励志、人生感悟、智慧思考等不同主题的名言

音乐播放功能

  • 位置:页面左下角,默认收起
  • 内容:嵌入Spotify白噪音播放列表
  • 代码

技术实现

  • 响应式设计:适配桌面端和移动端
  • 字体选择:使用优雅的中文字体,google font 引入
  • 颜色方案:主要使用白色文字,确保在各种背景下的可读性
  • 加载优化:图片懒加载,提升页面性能

交互功能

  • 自动刷新:每日自动更换背景图和名言
  • 手动刷新:提供刷新按钮,允许用户手动更换内容

文案风格

  • 名言选择:倾向于积极正面、富有哲理的短句
  • 语言风格:简洁有力,避免过于冗长
  • 主题分类:人生感悟、励志成长、智慧思考、情感表达等

请按照以上要求,生成一个完整的HTML/CSS/JavaScript网站,确保界面美观、功能完善、用户体验良好。

这个测试其实就纯粹看各个模型对于美学的表现的理解了,这种展示类型的网页一般都能完成。

只能说 Claude Opus 4 在这块还是很权威的,各种细节表现都很好,Gemini 2.5 Pro 也不错,甚至给图片的切换加上了动效,Deepseek 和 Sonnet 4 坐一桌了。

Deepseek-R1-0528:我先跑的 Deepseek,本来以为已经很好了,整体美学上有问题的第一个是左下角的音乐按钮有点扁,然后就是名言的部分,不应该加黑色遮罩,文字的对齐方式也有点怪,不过他也给刷新加了动效。

Claude Opus 4:Opus 4 的这个美学真的无可挑剔,各个字体的大小比例,间距都非常舒服,而且还给名言加上了引号人物名称和引号的透明度还做了处理,就连 Spotify 播放器都套了一个 UI 做了展开收起的动效,太完美了。

Claude Sonnet 4:Sonnet 4 的效果跟 Deepseek 问题很像,音乐播放按钮、文字的大小、对齐方式和间距都可以继续优化。

Gemini 2.5 Pro:Gemini 的效果也不错,如果去掉文字的投影就更好了,它也针对 Spotify 播放器 UI 做了处理,文字细节也没啥问题,切换动效很明显图片有个拉伸的效果。


测试 5:睡眠 APP 页面生成

接下来是移动设备应用的测试,让他们分别写一个睡眠监测应用,提示词中会提出对应的技术栈和设计要求,同时会要求生成多个可交互的页面。

提示词:# 睡眠监测APP开发需求

## 项目概述

请帮我创建一个**完整的睡眠监测APP**,包含4个主要的功能页面,界面需要美观且专业。


## 技术栈要求

### 前端技术

– HTML5 – 页面结构

– TailwindCSS v3.0+ – 样式框架(通过CDN引入)

– JavaScript – 必要的交互逻辑

– Anime.js v4.0.2 – 动画效果库

– CDN: `https://cdn.jsdelivr.net/npm/animejs@4.0.2/+esm`


### 图标和图表

– **图标库**: Font Awesome 或 Material Icons(CDN引入)

– **图表组件**: 在线图表组件,样式需与主题保持一致

– **数据可视化**: 支持睡眠数据的图表展示


## 设计要求


### 响应式设计

– 完全响应式布局

– 移动设备优先设计

– 桌面端和移动端都需良好显示


### 交互效果

– **按钮交互**: 悬停时轻微放大效果

– **表单交互**: 输入框聚焦时显示渐变边框

– **卡片交互**: 悬停时阴影加深效果

– **动画效果**: 使用Anime.js实现流畅的页面动画


## 功能页面需求

请生成睡眠监测APP所需的完整页面,包括但不限于:

– 主页/仪表盘

– 睡眠记录页面

– 数据分析页面

– 设置页面

– 其他相关功能页面


## 代码输出要求

– 每个页面为独立的HTML文件

– 代码结构清晰,注释完整

– 确保所有CDN链接可用

– 提供完整可运行的代码

在移动端的逻辑和界面上,Cluade Opus 4 再次展现了他的强大,完成了多个页面逻辑也不错,其他几个模型都只生成了一个页面,不过 Deepseek R1 0528 这次的审美突然在线了,样式美观度做的很好,虽然生成了单个页面但是很完整。

Deepseek-R1-0528:只生成了一个页面,但是整体的审美不错,卡片的细节和图标的处理都很好,整个页面也很完整很长,另外还给导航做了响应式设计,在移动端和桌面端完全不同。

Claude Opus 4:确实强,只有 Opus4 完整生成了全部的页面,不过这次的审美就不太行了,完全是用做网页的逻辑做的,导航的图标小的可怜。

Claude Sonnet 4:只生成了单个页面而且还报错了,页面的审美也不太行,属于将就把任务完成了。

Gemini 2.5 Pro:谷歌每次都跟别人不一样,真的一个页面一个页面生成,给了四个文件,相互之间不能交互,另外页面全部报错,每个页面都只有导航没有内容,这就有点拉了。


测试 6:复杂功能俄罗斯方块

最后还是小游戏测试收尾,我设计了一个比较复杂的俄罗斯方块游戏,有特殊方块,还有主题切换、方块落点预测、方块暂存等一堆功能,可以说是终极考验了。

提示词:请帮我创建一个功能完整、视觉精美的俄罗斯方块网页游戏,要求如下:

核心游戏功能

  1. 完整的俄罗斯方块机制:7种标准方块(I、O、T、S、Z、J、L)
  2. 流畅的操作控制:左右移动、旋转、快速下降、瞬间下降
  3. 智能消除系统:支持1-4行同时消除,有特殊动画效果
  4. 渐进难度系统:根据消除行数自动提升下降速度和等级

高级功能特性

  1. 预览系统:显示下一个和下下个方块
  2. 暂存功能:Hold键暂存当前方块,每轮只能使用一次
  3. 幽灵方块:半透明显示方块的着陆位置
  4. 连击系统:连续消除有额外分数加成和视觉特效
  5. 特殊技能
    • 炸弹方块(清除周围区域)
    • 激光消除(清除整行)
    • 时间暂停(3秒内方块停止下降)

视觉设计要求

  1. 现代化UI界面
    • 渐变背景或粒子效果
    • 毛玻璃效果的游戏面板
    • 流畅的动画过渡
    • 响应式设计适配不同屏幕
  2. 丰富的视觉特效
    • 方块下降和旋转的平滑动画
    • 消除时的爆炸或闪光特效
    • 连击时的震屏效果
    • 等级提升的庆祝动画
  3. 主题系统:至少3套不同的视觉主题可切换

音效系统

  1. 完整的音效反馈:移动、旋转、着陆、消除、游戏结束等
  2. 背景音乐:循环播放的游戏BGM
  3. 音量控制:可独立调节音效和背景音乐音量

游戏模式

  1. 经典模式:传统俄罗斯方块玩法
  2. 限时模式:在规定时间内获得最高分
  3. 挑战模式:预设障碍物,增加难度
  4. 禅模式:无时间压力,纯粹享受游戏

数据统计功能

  1. 实时统计:当前分数、等级、消除行数、游戏时间
  2. 历史记录:最高分、最佳等级、总游戏时间
  3. 成就系统:解锁各种游戏成就
  4. 本地存储:保存游戏记录和设置

技术要求

  1. 使用纯HTML5/CSS3/JavaScript,无需外部框架
  2. 代码结构清晰:面向对象编程,模块化设计
  3. 性能优化:流畅的60FPS动画,无卡顿
  4. 兼容性:支持主流现代浏览器
  5. 响应式设计:适配PC和移动设备

用户体验

  1. 直观的操作说明:内置教程和按键提示
  2. 暂停/继续功能:随时暂停游戏
  3. 设置菜单:可调节游戏难度、音效、视觉效果等
  4. 游戏状态保存:支持中途保存和继续游戏

代码质量要求

  1. 注释详细:每个函数和重要代码段都要有说明
  2. 错误处理:完善的异常捕获和处理机制
  3. 代码优雅:遵循最佳实践,易于理解和维护
  4. 可扩展性:方便后续添加新功能

请提供完整的HTML文件,包含所有CSS和JavaScript代码,确保可以直接在浏览器中运行。代码要体现出专业的编程水平和对游戏开发的深度理解。

在小游戏上 Claude 是有东西在的,不管是 Opus 还是 Sonnet 都按照要求生成了对应的俄罗斯方块,特别是特殊方块这个逻辑,Deepseek搞定了 Claude 都忽略了的主题,但是落掉了特殊方块,Gemini 2.5 Pro 就惨了生成的不能玩。

Deepseek-R1-0528:非常好中规中矩的完成了任务,但是丢掉了特殊方块的设计,干脆就没做,可能是提示词遵循的问题,整个网页更像游戏的界面所有的按钮都像正常的组件。

Claude Opus 4:完成了特殊方块的逻辑其他逻辑也没问题,但是忽略了主题切换这个提示词,他没做,相较于 DeepSeek 的问题要小一些,但是界面是写死的完全没有响应式逻辑,比例稍微不对几个按钮就点不到了。

Claude Sonnet 4:跟 Opus 类似,甚至我觉得 Sonnet 4 完成的比 Opus 要更好,页面的适配度也不错,这个感觉是Sonnet赢了,所有需要做的功能他都做了。

Gemini 2.5 Pro:涉及到复杂逻辑 Gemini 几乎每次都拉跨,这次是完全没办法玩,因为砖块的落点有 Bug 完全看到不会落在哪里,垫底。


看到这里,我想你已经和我一样,被 DeepSeek-R1 的表现整麻了。

很难想象这只是一个小的模型升级带来的提升,再来看看跟 DeepSeek R1 0528 对比的这几个模型的价格。

Opus 4 是他的 30 倍,我这还是用的 Openrouter 的价格算的,要是算官方会更离谱。

作为一个每天都在和各种 AI 消息打交道的人,我见证了太多”突破性进展”最后变成”差强人意”的故事。但这次不一样,DeepSeek-R1 让我看到了真正的希望。

30倍的价格差距,却能达到几乎相当的效果。

我们不再需要为了使用最好的 AI 编程模型付出天价,不再需要在成本和质量之间做痛苦的取舍。更让人感动的是,这是我们自己的模型。

这句话是 AI 给我写的,我觉得很好:真正的革命,往往始于让普通人也能触及星辰。


再次重复一下,这个测试真的是又费钱又费人,如果对你有帮助,希望各位可以给点个赞或者喜欢。


(文:归藏的AI工具箱)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往