没有预热,只有实力:Claude 3.7 Sonnet不声不响,惊艳全场!

Claude 3.7 Sonnet 来了,看似突然,但却存在某些必然。

DeepSeek 的全球爆火无疑推动了整个 AI 模型领域的发展。

OpenAI 先是发布了新推理模型 o3-mini,随后又为即将发布的 GPT-4.5 和据传将于今年5月发布的 GPT-5 疯狂宣传造势。

谷歌 Gemini 紧随其后,发布了 Gemini 2.0 系列,包括通用模型 Gemini 2.0 FlashGemini 2.0 Pro 和思考模型 Gemini 2.0 Flash Thinking

马斯克的 xAI 更不必多说。发布会当天马斯克亲自坐镇,发布了新模型 Grok 3,包括其推理模型,以及 xAI 的首个 AI Agent Deep Search

很明显,“DeepSeek 效应”仍在持续。


反观“北美 AI 御三家”之一的 Anthropic,自从去年6月20日发布了 Claude 3.5 Sonnet 以及10月22日更新了一版之后,在模型方面就再无“建树”。

所以,是时候发布新版 Claude 模型了。

没有任何预热和造势,北京时间今天(2月25日)凌晨,Anthropic 官宣正式发布新模型 Claude 3.7 Sonnet



Claude 3.7 Sonnet 不但是前代模型 Claude 3.5 Sonnet 的升级版,还是全球首个混合推理模型。

解释一下这是什么意思。以 OpenAI 的模型为例,GPT-4o 没有内置思维链,不会思考,但响应速度快;而 o1 和 o3-mini 是推理模型,回答前都会先进行思考,带来的弊端就是:耗时。

新发布的 Claude 3.7 Sonnet 则是二者的结合体。一个模型,两种架构,对应着两种思维方式。它既能提供近乎即时的回答(不思考),也能进行逐步的深入思考。如果是开发者,还能利用 Claude 3.7 Sonnet API 精细化掌控该模型的思考时长。

作为一直以来的“最强编程模型”(大概没有之一?),Claude 3.7 Sonnet 延续了这个特性,在编程和前端网页开发方面有显著提升。并且,Anthropic 还推出了一款名为 Claude Code 的辅助编程工具。Claude Code 目前处于预览阶段。

基于命令行的 Claude Code 长这样。竟然有点小可爱。



不拘一格的 Claude 3.7 Sonnet

本质上来说,Claude 3.7 Sonnet 走的是一条和其他绝大多数模型不同的路,不止是前面提到的“混合推理”双模式。

比如它的设计理念。

和目前追求基准测试排行榜、追求难题解决能力的大多数模型不同的是,Claude 3.7 Sonnet 在设计和研发时就没有过分追求对竞赛级别难题的优化,而是聚焦在更贴近用户实际需求的现实世界任务。

不得不说,这值得点个赞。普通企业和个人用户,谁用得着做奥赛题呢?

不追求,不代表就“弱”。来看看 Claude 3.7 Sonnet 在基准测试的表现。

在编程测试 SWE-bench Verified 中,Claude 3.7 Sonnet 一骑绝尘,绝对的 SOTA(state-of-the-art,指业界顶尖水平)级别。

在 TAU-bench 测试中,Claude 3.7 Sonnet 的表现同样亮眼。备注:该测试用于评估 AI Agent 在调用工具、处理复杂现实任务时的表现。

在更一般性的基准测试中,Claude 3.7 Sonnet 非思考和思考模式,相较于前代模型都有着不小的提升。

但诚如 Anthropic 官方所说,Claude 3.7 Sonnet 并没有针对数学难题进行特殊优化。所以需要指出的是,在数学基准测试中,Claude 3.7 Sonnet 是打不过 o1DeepSeek-R1 和 Grok 3的。



Claude Code

Anthropic 这家公司很有意思,它特别擅长“用户体验”方面的提升。

比如 Claude ArtifactsClaude Projects 这些很受欢迎的功能,都是由 Anthropic 先推出的。而 OpenAI 后来给 ChatGPT 新加的 ChatGPT Canvas 和 ChatGPT Projects 功能,都是借鉴 Claude 而来,基本“一模一样”。

而随着 Claude 3.7 Sonnet 一同发布的 Claude Code 也是如此。

Claude Code 是一个基于命令行的辅助编程工具,它能够搜索、阅读、编辑代码,编写、运行测试,最终把代码提交到 GitHub。

目前的 Claude Code 仍处于预览阶段。据 Anthropic,在早期测试中,Claude Code 能一次性完成 45 分钟手动操作的任务。


怎么用 Claude 3.7 Sonnet

Anthropic 不但突然发布了 Claude 3.7 Sonnet 这个惊喜,而且是“全面上线”。

所有用户现在已经可以在 Claude 网页端(claude.ai)和手机 app 上使用 Claude 3.7 Sonnet,包括免费用户。然而,需要注意的是,Claude 3.7 Sonnet 的推理模式需要升级付费后才能使用。

Claude 3.7 Sonnet 的 API 也已全面开放。开发者可在 Anthropic API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 上使用。

划重点,无论是在标准模式还是推理模式,Claude 3.7 Sonnet 的 API 定价都与其前代模型 Claude 3.5 Sonnet 一致:每百万输入 tokens 3 美元,每百万输出 tokens 15 美元,包括思考过程的token消耗。


以 Claude 的一幅未来展望图作为本篇文章的结尾吧。



我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

欢迎分享

发表评论