
Anthropic 正在发布一款名为 Claude 3.7 Sonnet 的前沿 AI 模型,该公司设计该模型的目的是让用户可以根据需要让 AI“思考”问题。
Anthropic 将 Claude 3.7 Sonnet 称为业界首个“混合 AI 推理模型”,因为它是一个单一模型,能够同时提供实时答案和更为深思熟虑的“思考型”答案。
用户可以选择是否激活 AI 模型的“推理”能力,这会促使 Claude 3.7 Sonnet 进行短期或长期的“思考”。
该模型代表了 Anthropic 在简化其 AI 产品用户体验方面的更广泛努力。如今,大多数 AI 聊天机器人都有一个令人生畏的模型选择器,迫使用户在成本和能力各不相同的多个选项中进行选择。像 Anthropic 这样的实验室更希望用户无需为此费心——理想情况下,一个模型就能完成所有工作。
Anthropic 表示,Claude 3.7 Sonnet 将于周一面向所有用户和开发者推出,但只有付费购买 Anthropic 高级 Claude 聊天机器人计划的用户才能访问该模型的推理功能。免费 Claude 用户将获得标准的、无推理功能的 Claude 3.7 Sonnet 版本,Anthropic 声称其性能优于之前的尖端 AI 模型 Claude 3.5 Sonnet。(是的,公司跳过了编号。)
图片来源:Anthropic
Claude 3.7 Sonnet 的输入费用为每百万 tokens 3 美元(意味着你可以输入大约 75 万字,比整个《指环王》系列的字数还多,仅需 3 美元),输出费用为每百万 tokens 15 美元。
这使得它比 OpenAI 的 o3-mini(每百万输入 tokens 1.10 美元/每百万输出 tokens 4.40 美元)和 DeepSeek 的 R1(每百万输入 tokens 0.55 美元/每百万输出 tokens 2.19 美元)更贵,但请记住,o3-mini 和 R1 是严格的推理模型,而非像 Claude 3.7 Sonnet 这样的混合模型。

图片来源:Anthropic
Claude 3.7 Sonnet 是 Anthropic 首个能够“推理”的 AI 模型,随着传统提升 AI 性能的方法逐渐失效,许多 AI 实验室已转向这一技术。
像 o3-mini、R1、谷歌的 Gemini 2.0 Flash Thinking 和 xAI 的 Grok 3(Think)这样的推理模型在回答问题前会消耗更多时间和计算资源。这些模型将问题分解为更小的步骤,这往往能提高最终答案的准确性。推理模型并不一定像人类那样思考或推理,但它们的过程是模仿演绎推理设计的。
最终,Anthropic 希望 Claude 能够自行决定应该“思考”问题多久,而无需用户预先选择控制选项,Anthropic 的产品和研究负责人 Dianne Penn 在接受 TechCrunch 采访时表示。
“类似于人类不会为可以立即回答的问题和需要思考的问题,配备两个独立的大脑,”Anthropic 在一篇与 TechCrunch 分享的博客文章中写道,“我们将推理视为前沿模型应具备的能力之一,以便与其他能力无缝集成,而不是在单独模型中提供。”
Anthropic 表示,它允许 Claude 3.7 Sonnet 通过“可见的草稿板”展示其内部规划阶段。Penn 告诉 TechCrunch,用户将看到 Claude 对大多数提示的完整思考过程,但出于信任和安全考虑,部分内容可能会被编辑。
图片来源:Anthropic
Anthropic 表示,它优化了 Claude 的思维模式以应对现实世界的任务,例如复杂的编程问题或代理任务。使用 Anthropic API 的开发者可以控制“思考预算”,在速度、成本和答案质量之间进行权衡。
在衡量实际编码任务的测试 SWE-Bench 中,Claude 3.7 Sonnet 的准确率为 62.3%,而 OpenAI 的 o3-mini 模型得分为 49.3%。在另一项测试 TAU-Bench 中,该测试旨在衡量 AI 模型在零售环境中与模拟用户和外部 API 互动的能力,Claude 3.7 Sonnet 得分为 81.2%,而 OpenAI 的 o1 模型得分为 73.5%。
Anthropic 还表示,Claude 3.7 Sonnet 将比其前代模型更少拒绝回答问题,声称该模型能够更细致地区分有害和良性的提示。Anthropic 称,与 Claude 3.5 Sonnet 相比,它将不必要的拒绝减少了 45%。此时正值其他一些 AI 实验室正在重新考虑限制其 AI 聊天机器人回答的方法。
除了 Claude 3.7 Sonnet,Anthropic 还发布了一款名为 Claude Code 的智能编码工具。该工具以研究预览版形式推出,允许开发者直接从终端通过 Claude 运行特定任务。
在一次演示中,Anthropic 员工展示了 Claude Code 如何通过简单命令(如“解释此项目结构”)分析编码项目。开发者可以在命令行中使用通俗英语修改代码库。Claude Code 会在进行更改时描述其编辑内容,甚至测试项目中的错误或将其推送到 GitHub 仓库。
Claude Code 最初将根据“先到先得”的原则向有限数量的用户开放,Anthropic 的一位发言人告诉 TechCrunch。
Anthropic 正在发布 Claude 3.7 Sonnet,而此时 AI 实验室正以惊人的速度推出新模型。Anthropic 历来采取更为系统化、注重安全的方法。但这一次,公司希望引领潮流。
然而,问题是这个时间会有多长。OpenAI 可能即将发布自己的混合 AI 模型;公司 CEO Sam Altman 曾表示,它将在“几个月内”到来。
本文翻译自:Techcrunch
https://techcrunch.com/2025/02/24/anthropic-launches-a-new-ai-model-that-thinks-as-long-as-you-want/
编译:ChatGPT
(文:Z Potentials)