Claude 3.7 Sonnet
来了,看似突然,但却存在某些必然。
DeepSeek 的全球爆火无疑推动了整个 AI 模型领域的发展。
OpenAI 先是发布了新推理模型 o3-mini
,随后又为即将发布的 GPT-4.5
和据传将于今年5月发布的 GPT-5
疯狂宣传造势。
谷歌 Gemini 紧随其后,发布了 Gemini 2.0
系列,包括通用模型 Gemini 2.0 Flash
、Gemini 2.0 Pro
和思考模型 Gemini 2.0 Flash Thinking
。
马斯克的 xAI 更不必多说。发布会当天马斯克亲自坐镇,发布了新模型 Grok 3
,包括其推理模型,以及 xAI 的首个 AI Agent Deep Search
。

很明显,“DeepSeek 效应”仍在持续。
反观“北美 AI 御三家”之一的 Anthropic,自从去年6月20日发布了 Claude 3.5 Sonnet
以及10月22日更新了一版之后,在模型方面就再无“建树”。
所以,是时候发布新版 Claude 模型了。
没有任何预热和造势,北京时间今天(2月25日)凌晨,Anthropic 官宣正式发布新模型 Claude 3.7 Sonnet
。

Claude 3.7 Sonnet
不但是前代模型 Claude 3.5 Sonnet
的升级版,还是全球首个混合推理模型。
解释一下这是什么意思。以 OpenAI 的模型为例,GPT-4o
没有内置思维链,不会思考,但响应速度快;而 o1
和 o3-mini
是推理模型,回答前都会先进行思考,带来的弊端就是:耗时。
新发布的 Claude 3.7 Sonnet
则是二者的结合体。一个模型,两种架构,对应着两种思维方式。它既能提供近乎即时的回答(不思考),也能进行逐步的深入思考。如果是开发者,还能利用 Claude 3.7 Sonnet
API 精细化掌控该模型的思考时长。

作为一直以来的“最强编程模型”(大概没有之一?),Claude 3.7 Sonnet
延续了这个特性,在编程和前端网页开发方面有显著提升。并且,Anthropic 还推出了一款名为 Claude Code
的辅助编程工具。Claude Code
目前处于预览阶段。
基于命令行的 Claude Code
长这样。竟然有点小可爱。

不拘一格的 Claude 3.7 Sonnet
本质上来说,Claude 3.7 Sonnet
走的是一条和其他绝大多数模型不同的路,不止是前面提到的“混合推理”双模式。
比如它的设计理念。
和目前追求基准测试排行榜、追求难题解决能力的大多数模型不同的是,Claude 3.7 Sonnet
在设计和研发时就没有过分追求对竞赛级别难题的优化,而是聚焦在更贴近用户实际需求的现实世界任务。
不得不说,这值得点个赞。普通企业和个人用户,谁用得着做奥赛题呢?
不追求,不代表就“弱”。来看看 Claude 3.7 Sonnet
在基准测试的表现。
在编程测试 SWE-bench Verified 中,Claude 3.7 Sonnet
一骑绝尘,绝对的 SOTA(state-of-the-art,指业界顶尖水平)级别。

在 TAU-bench 测试中,Claude 3.7 Sonnet
的表现同样亮眼。备注:该测试用于评估 AI Agent 在调用工具、处理复杂现实任务时的表现。

在更一般性的基准测试中,Claude 3.7 Sonnet
非思考和思考模式,相较于前代模型都有着不小的提升。
但诚如 Anthropic 官方所说,Claude 3.7 Sonnet
并没有针对数学难题进行特殊优化。所以需要指出的是,在数学基准测试中,Claude 3.7 Sonnet
是打不过 o1
、DeepSeek-R1
和 Grok 3
的。

Claude Code
Anthropic 这家公司很有意思,它特别擅长“用户体验”方面的提升。
比如 Claude Artifacts
,Claude Projects
这些很受欢迎的功能,都是由 Anthropic 先推出的。而 OpenAI 后来给 ChatGPT 新加的 ChatGPT Canvas
和 ChatGPT Projects
功能,都是借鉴 Claude 而来,基本“一模一样”。
而随着 Claude 3.7 Sonnet
一同发布的 Claude Code
也是如此。
Claude Code
是一个基于命令行的辅助编程工具,它能够搜索、阅读、编辑代码,编写、运行测试,最终把代码提交到 GitHub。

目前的 Claude Code
仍处于预览阶段。据 Anthropic,在早期测试中,Claude Code
能一次性完成 45 分钟手动操作的任务。
怎么用 Claude 3.7 Sonnet
Anthropic 不但突然发布了 Claude 3.7 Sonnet
这个惊喜,而且是“全面上线”。
所有用户现在已经可以在 Claude 网页端(claude.ai)和手机 app 上使用 Claude 3.7 Sonnet
,包括免费用户。然而,需要注意的是,Claude 3.7 Sonnet
的推理模式需要升级付费后才能使用。

Claude 3.7 Sonnet
的 API 也已全面开放。开发者可在 Anthropic API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 上使用。
划重点,无论是在标准模式还是推理模式,Claude 3.7 Sonnet
的 API 定价都与其前代模型 Claude 3.5 Sonnet
一致:每百万输入 tokens 3 美元,每百万输出 tokens 15 美元,包括思考过程的token消耗。
以 Claude 的一幅未来展望图作为本篇文章的结尾吧。

我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)