深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合

刚刚Anthropic公司正式发布了他们最新的AI王牌组合—— Claude 3.7 Sonnet 和 Claude Code！各种能力超群，只是数学能力还是不及DeepSeek等，感觉Claude所有重点都在代码能力

第一时间（熬夜🤣）给大家划个重点

Claude 3.7 Sonnet：混合推理架构登场，打造前所未有的智能巅峰！

Anthropic毫不掩饰对Claude 3.7 Sonnet的自信，直接称其为 “迄今为止最智能的模型”，更重要的是，它还开创性地成为了 “市场上首个混合推理模型”！

与以往模型不同，Claude 3.7 Sonnet 的独特之处在于其 “混合” 能力：

• 极速响应与深度思考并存： 它既能像猎豹一样 “即时响应”，满足对速度有极致要求的场景；又能进行 “扩展的、逐步思考”，处理需要复杂推理的任务。深度思考的过程不再是黑箱操作，而是 “对用户可见的”！
• 思考时长由你掌控： 对于API开发者而言，Anthropic 开放了 “思考预算 (budget for thinking)” 的精细控制权。你可以根据任务的复杂程度和对结果质量的要求，设定模型思考的tokens上限 (最高可达 128K tokens 输出限制)。这意味着开发者可以根据实际需求，在 速度、成本和答案质量 之间自由调优，实现真正的 “按需定制”！👍 这种灵活性是前所未有的，也体现了Anthropic对开发者需求的深刻理解
• 标准模式与扩展思考模式： Claude 3.7 Sonnet 在 标准模式 下，是 Claude 3.5 Sonnet 的升级版，性能已经非常出色。而在 扩展思考模式 下，它会进行 “自我反思 (self-reflects)” 后再给出答案，这使得它在 数学、物理、指令跟随、编码 等多个领域的性能都得到显著提升。更棒的是，无论在哪种模式下，prompt的编写方式都基本一致，降低了用户的学习成本

💪 代码能力史诗级跃升！Claude Code横空出世，赋能智能体编码新范式！

如果你是一名开发者，尤其是专注于 编程和前端Web开发，那么Claude 3.7 Sonnet 和 Claude Code 的组合绝对会不失所望！ Anthropic 明确指出，新模型在 “编码和前端Web开发” 领域取得了 “特别强劲的改进”

更重要的是“Claude Code” —— 一个跨时代的 “智能体编码命令行工具”！这不仅是 Claude 系列的首款代码工具，更预示着AI辅助编程进入了一个全新的阶段。目前 Claude Code 以 “限量研究预览版” 的形式推出

Claude Code 的强大之处在于，它将 AI 的代码智能直接融入开发者的工作流中，让你能够在熟悉的 终端环境 下，“直接委托实质性的工程任务给 Claude”。想象一下，你只需在命令行输入指令，就能让 AI 智能体完成代码搜索、文件编辑、测试编写和运行、代码提交和推送等一系列复杂的编程任务

Claude Code 的核心能力包括：

• 代码检索与阅读： 快速搜索和理解代码库，不再需要在海量代码中手动翻找
• 文件编辑： 智能修改代码文件，无论是简单的bug修复还是复杂的重构，都能轻松应对
• 测试编写与运行： 自动生成和执行测试用例，确保代码质量，提升软件可靠性
• 代码提交与推送 (GitHub 集成)： 无缝集成 GitHub，方便代码的版本控制和协作
• 命令行工具集成： 灵活使用各种命令行工具，扩展功能，满足更复杂的需求。

Anthropic 强调，Claude Code 在 测试驱动开发、复杂问题调试和大规模重构 等场景中尤其得心应手。在早期测试中，Claude Code 能够在 “单次操作中完成通常需要 45 分钟以上的手动工作”，显著缩短开发时间和成本

Claude Code 目前处于研究预览的 beta 阶段：

https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

📊 权威评测数据震撼发布：实力碾压，问鼎多项榜单！

性能是检验 AI 模型实力的硬指标。Anthropic 在公告中展示了 Claude 3.7 Sonnet 在多个权威基准测试上的卓越表现，用数据说话，实力尽显：

• SWE-bench Verified (软件工程基准测试): Claude 3.7 Sonnet 以 70.3% (使用定制 scaffold) 和 62.3% (标准 scaffold) 的惊人成绩，再次成为该榜单的王者，远超 OpenAI 的 GPT-4 和 DeepSeek R1 等强劲对手。 SWE-bench Verified 专注于评估 AI 模型解决真实世界软件问题的能力，Claude 3.7 Sonnet 的优异表现充分证明了其在实际编码场景中的强大实力。值得注意的是，70.3% 的高分使用了 “定制 scaffold”，并在问题子集上进行了内部评分，而 62.3% 的分数则使用了 bash/editor 工具和一个 “思考工具”，在 500 个问题上进行了单次尝试，没有额外的测试时计算

• TAU-bench (智能体工具使用基准测试): Claude 3.7 Sonnet 在 TAU-bench 的 零售 (retail) 和 航空 (airline) 两个场景中，分别取得了 81.2% 和 58.4% 的领先成绩。 TAU-bench 考察的是 AI 智能体在复杂的真实世界任务中，与用户和各种工具进行有效交互的能力。Claude 3.7 Sonnet 在此项测试中再次拔得头筹，印证了其作为智能体工具的卓越性能。为了获得这些分数，Anthropic 使用了 prompt addendum 指导 Claude 更好地利用 “planning” tool，鼓励模型写下思考过程

通用benchmark测试

总而言之，Claude 3.7 Sonnet 在 指令跟随、通用推理、多模态能力和智能体编码 等多个关键领域都展现出了卓越的性能，在 数学和科学 方面，扩展思考模式带来了显著的提升但是没有超越deepseek等模型。在 Anthropic 内部的 Pokémon gameplay tests (宝可梦游戏测试) 中，Claude 3.7 Sonnet 也超越了以往的所有模型

写在最后：

按照Anthropic的说法：Claude 3.7 Sonnet 和 Claude Code 的发布，是在 “构建真正增强人类能力的 AI 系统” 道路上迈出的重要一步。 Anthropic 坚信，凭借其强大的 “深度推理、自主工作和有效协作” 能力，AI 将把我们带向一个更加美好的未来，在那里，AI 将 “丰富和扩展人类所能成就的一切”

Anthropic 也在公告中展望了 Claude 的发展蓝图，描绘了 Claude 从 “助手 (assists)” 到 “合作者 (collaborates)” 再到 “先锋 (pioneers)” 的进化路径，预示着 AI 在未来将扮演越来越重要的角色，最终将能够 “找到突破性的解决方案，解决需要团队数年才能完成的挑战性问题”。

参考：

https://www.anthropic.com/news/claude-3-7-sonnet

⭐

（文：AI寒武纪）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Claude 3.7 Sonnet：混合推理架构登场，打造前所未有的智能巅峰！

💪 代码能力史诗级跃升！Claude Code横空出世，赋能智能体编码新范式！

📊 权威评测数据震撼发布：实力碾压，问鼎多项榜单！

写在最后：

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复