Anthropic 推全球首个混合推理模型Claude 3.7，编程能力大幅增强

作者｜子川

来源｜AI先锋官

与以往模型不同，Claude 3.7 Sonnet是市面上“首个混合推理模型”。

简单来说，Claude 3.7 将“通用模型”和“推理模型”融合在一起，在模型输出时，可以自由选择Claude 3.7调用哪种模型进行回答。

同时Claude 3.7在扩展思考模式下将和Deepseek一样，将展示原始的思考过程，不做任何隐瞒。

其次，在API调用Claude 3.7 Sonnet时，可以设置 “思考预算 (budget for thinking)” ：限制Claude的思考不超过N个token，其中N的值可高达其输出上限128K个token。

这样，用户能根据需要在速度、成本和答案质量之间自由调优，以达到更满意的效果。

在扩展思考模式下，Claude 3.7还会先“自我反思”，再给出答案，这使得它在数学、物理、指令跟随和编码等领域的表现大幅提升。

在SWE-bench Verified (软件工程基准测试)中， Claude 3.7 Sonnet 以 70.3% (使用定制 scaffold) 和 62.3% (标准 scaffold) 的分数超越了o1、o3-mini和Deepseek等一众多顶尖模型。

注：SWE-bench Verified 是 OpenAI 推出的一个经过人工验证的基准测试工具，旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。

同时在TAU-bench (智能体工具使用基准测试)中，在零售 (retail) 和航空 (airline) 两个场景中，Claude 3.7分别取得了 81.2% 和 58.4% 的领先成绩。

在通用benchmark测试中，Claude 3.7 Sonnet 在指令遵循、推理、多模态能力和代理编码方面表现出色。

不过在数学和科学方面，扩展思考模式并没有超越DeepSeek R1、o3-mini等模型。

除了发布Claude 3.7之外，Anthropic还推出了它们首个代理编码工具 Claude Code 。

Claude Code 是一款集成在终端中的代理编码工具，能够理解并操作代码库。

只需在命令行输入指令，就能让 AI 智能体完成代码搜索、文件编辑、测试编写和运行、代码提交和推送等一系列复杂的编程任务。

能一次性完成通常需要45分钟的工作量。

主要功能包括：

不过Claude Code 目前处于研究预览的 beta 阶段。

（文：AI先锋官）