Claude 3.7 Sonnet一战封神，画骑车鹈鹕、一键生成贪吃蛇，全网就它行

AI好好用报道

编辑：Sia

行业似乎正朝着一个未来迈进，即一个模型可以做所有事情，而不是提供独立的推理模型。

看来 AI 圈的军备竞赛，又要进入新回合了～

继去年 6 月推出超能打的 Claude 3.5 Sonnet 后，OpenAI 劲敌 Anthropic 又拿出了新的旗舰模型 Claude 3.7 Sonnet。

它不仅是 Anthropic 首个能够推理的 AI 模型，还号称业界首个「混合推理模型」。

前两天也有科技媒体报道，OpenAI 可能即将发布自己的混合 AI 模型。

啥叫混合推理模型？

简单来说，o3-mini、R1、Gemini 2.0 Flash Thinking 和 Grok 3 ( Think ) 等都是单独提供推理模型。

而 Claude 3.7 Sonnet 用一种混合推理架构，将逻辑推理与生成能力进行了深度融合。

换句话说，Claude 3.7 Sonnet 既是普通的基础模型，日常唠嗑秒回你（标准模式）；又是推理模型，遇到烧脑题可切换学霸模式（扩展模式）。

聊天框里就能自由切换，非常方便！

咱们人类聊天，简单问题脱口而出，复杂问题托腮思考，根本没有两个独立的大脑分别应对不同问题。

所以，Anthropic 认为，推理只是前沿模型应该具备的功能之一，可以与其他功能顺利整合，不该是个需要单独付费才能访问的独立功能。

只要你是付费用户，这波升级就算白给！

还是每月 20 美元的订阅费，即可解锁推理功能！

开发者可通过「scratchpad」功能干预模型思考过程，甚至精确控制响应时间（如要求200毫秒内响应）。

据《华尔街日报》的报道，Anthropic 发布 Claude 3.7 Sonnet，年化收入约为 12 亿美元，公司仍在亏损。

Anthropic 正在完成一轮 35 亿美元的融资，估值达到 615 亿美元。如果融资成功，Anthropic 的总筹集金额将接近 180 亿美元。

-1-

代码：妥妥的 NO.1

基准测试显示，3.7 版本在数学和编码任务中表现显著提升，能处理更复杂的多步骤问题。

简单探讨颜色名称的起源与历史事件之间的关系——「如果没有 Magenta 这个小镇，『洋红色』的叫法还存在吗？」

启动扩展思考，Claude 3.7 Sonnet 推理能力显然在线：

名字来源于纪念这座小镇的一场战役，如果小镇不存在，这个颜色的名字就可能是另一个名称，答案说，不会有这个名字的存在。

正确！

来自科技媒体arstechnica

当然，3.7 版本的编码能力最为突出，以至于人们会揣测 Anthropic 要将 Sonnet 系列定位为编码 AI。

一些科研人员也与 Nature 分享过经验，认为 Claude 属于「代码型」。

事实上，Claude 3.5 早已是很多开发者心目中最佳的 AI 编程的模型，Claude 3.7 进一步将这一优势提升了 20%，稳居第一。

Claude 一直就是很多开发者心目中最佳的 AI 编程的模型。

新模型到底有多惊艳呢？

有网友用 Claude 3.7 Sonnet 编写新春版贪吃蛇游戏，一次成功。

来自 X @wshuyi

生成动画天气卡片，展示四种天气条件：风、雨、晴、雪，每种都有不同的动画效果，并且要并排显示在一个深色背景上。

此外，还要有一个功能或按钮来切换不同的天气条件，展示每种动画。

X@AGI_FromWalmart

更复杂一点。「做一个可以互动的时间机器，挑选一些不寻常的时代，供人穿越回到过去，并发生一些有趣的事情。」并且，「添加更多图形。」

仅仅通过这两个提示，就产生了一个完全可互动的体验，配有粗糙但迷人的像素图形。

这里的挑战性在于 AI 必须用纯代码「绘制」这些图形，这就像要求一位盲人画家准确呈现它们。

来自X@emollick

再来一个。让 Claude 基于赫尔曼·梅尔维尔的故事《巴特比，抄写员》创作一款具有独特机制的视频游戏。

结果，它仅凭一个提示就完成了。

来自X@emollick

创建一个 3D 城市场景。

来自 X@ozgrozer

一个三角球在十二边形内弹跳，每次弹跳时球都会改变颜色，背景是太空。

来自X@KungFuKurrupttt

看看这个多米诺骨牌效应。

来自 X@_akhaliq

-2-

AI Agent ：Claude Code

到目前为止，2025 年是 R1 、 o3、以及 AI Agent 工具（如 OpenAI 的Operator 和 Deep Research ）的一年。

Anthropic 也不甘落后，同时宣布了其首款代理工具 Claude Code。

这是一款自主编码助手，你可以直接将大量的终端任务委派给它—— Claude Code 可以搜索和阅读代码、编辑文件、编写和运行测试、提交和推送代码到 GitHub，以及使用命令行工具。

有人用 Sonnet 3.7 进行视频编码，发现效果非常出色。他们还开发了一个机器人，这个机器人可以使用 Claude Code 将 Linear 任务工单自动转换成 GitHub 上的拉取请求。

来自X@pveerina

在这个案例中，Claude 3.7 Sonnet 与 Claude Code 一次性创建了整个玻璃风格的设计系统，包含所有组件，甚至正确使用了变量而不是像颜色等那样硬编码。

来自X@skirano

Anthropic 还希望 Claude Code 能作为调试和重构任务的助手。公司声称，在内部测试中，Claude Code 能在一次会话中完成通常需要超过 45 分钟的手动工作。

目前，Claude Code 仅作为有限的研究预览提供，Anthropic 表示计划根据用户反馈不断改进该工具。

-3-

svg 绘图王者

还记得那个让大模型恼火的 svg 绘图挑战赛吗？请画一只骑自行车的鹈鹕。

在这场 svg 可视化能力实测中，大模型们几乎全军覆没，除了 Claude，以至于 Andrzej Karpathy 推测 Claude 是针对 svg 专门训练过的。

这回，Claude 3.7 再次证明自己依然是 svg 可视化的王者。

来自X@simonw，这是没有启用推理功能（左）和启用后（右）的对比。

有网友请它创建一个 svg 格式的 Swimlane Diagram，需要满足一系列复杂的规范。

结果，3.7版本完美生成了 svg 的 Swimlane Diagram。

来自X@LinearUncle

还有人发现花的 tokens 越多，独角兽越像独角兽。

来自X@DimitrisPapail

至于讲笑话嘛，要求「创作 5 个世界上找不到的原创老爸笑话」。这是一些结果：

「为什么程序员要洗澡？因为他们要调试代码！」

「气象学家对 IT 专家说了什么？『你的云计算预测看起来有点技术性，还有更新的可能！』」

………

看完后，我只想说「把我的枪拿来。」

来自科技媒体arstechnica

值得注意的是，Claude 3.7 Sonnet 仍然缺乏其他模型的实时网络搜索功能，其知识截止日期为 2024 年 10 月。

（文：AI好好用）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复