Claude 4 发布：实测代码更强，同时 Cue 了 Manus

今天凌晨，Claude 4 系列模型发布，包括：

• Claude Opus 4（旗舰）
• Claude Sonnet 4（主力）

这两款模型同时支持扩展推理（extended thinking）、工具调用、文件读取、并行任务等 Agent 工作流所需核心能力。

实测：能完成较为复杂任务

在 WebApp 上，Sonnet 免费，Opus 4 付费
在 API 上，上下文均为 200k，定价与前代一致，每百万 token：
Opus 输入 $15，输出 $75
Sonnet 输入 $3，输出 $15

编程能力提升

作为旗舰模型的 Claude Opus 4 ，针对复杂编程场景，进行了很多优化：

• 跨文件编辑能力：模型可识别项目结构，在多个文件间同步修改，减少遗漏；
• 复杂指令执行：更好地解析多条件、分步骤的请求；
• 长时间任务保持：具备较强的上下文记忆能力，适合执行耗时较长的流程；
• 逻辑完整性增强：在多步推理中更少出现跳步或模板式回答的问题。

根据公开基准测试数据，Claude Opus4 在 SWE-bench 中得分为 72.5%，在 Terminal-bench 得分为 43.2%。这两个得分均高于 GPT-4.1（54.6%/30.3%）和 Gemini 2.5 Pro（63.2%/25.3%）。

另外的，你会发现 Claude Sonnet 4 在 SWE-bench 得分为 72.7%，略高于 Opus 4。
该模型是对 Sonnet 3.7 的升级，提升了响应速度和执行精度，适合在原有场景中替代旧版使用。

新能力加入

除了模型本身外，Claude 4 系列还做了几项关键能力提升：

• 工具调用能力（beta）：模型可以在中途调用工具（如 Web 搜索、本地文件读取、代码执行），用于补充信息或运行指令，适配更多类 Agent 工作流。
• 并行工具使用：多个工具调用可同时进行，任务拆解与执行效率提升，适合复杂任务路径或并发型指令。
• 内存机制增强：开发者授权 Claude 访问本地文件后，模型可以创建“记忆文档”，记录上下文关键信息，增强长任务一致性和延续性。

• 规避任务“捷径”行为：Anthropic 表示 Claude 4 系列在容易作弊的任务中，出现“偷懒”行为（如跳过中间步骤）的概率减少了 65%，使得多步骤任务执行更稳、更可控。比如下面，这种可恶的代码省略：

def square_numbers(numbers):
    result = []
    for n in numbers:
        # ...省略：计算平方
        result.append(n)  # 本应是 result.append(n ** 2)
    return result

# 测试
nums = [1, 2, 3, 4]
print("Squared:", square_numbers(nums))  # 输出 [1, 2, 3, 4]，但本应是 [1, 4, 9, 16]

这些东西吧，它没办法体现在跑分离，但在很多编程自动化领域，会非常受用。

Claude Code 更新

Claude Code 已正式开放，方便开发者可以把 Claude 更深地嵌入日常开发流程。新增内容包括：

• 支持 GitHub Actions：Claude 可以作为后台 Agent 执行代码任务。
• 原生集成 IDE：提供 VS Code 和 JetBrains 插件，Claude 的修改建议会直接以“行内标注”的方式呈现在代码中，无需额外切换。
• Claude Code SDK：开发者可以用它来自定义自己的 Agent，或构建 AI 协同工具。
• 在 GitHub 中 @Claude：可以 @Claude Code 参与 PR 审查，自动响应修改建议、修复 CI 报错等。

实测

我一直想跑这么一个任务，但无论 GPT、Gemini 还是之前的 Claude 都没有成功：

生成 3D 演示动画，像中学生演示四冲程发动机的工作原理

但在这个这次的 Claude 4 里跑通了：

过程如下

然后…吐个槽，怎么感觉额度消耗的好快，这就让我去加钱了

Manus 出现在官方发布中

在这次发布中，Anthropic 引用了多个第三方开发者工具的反馈，包括 GitHub、Sourcegraph、Augment Code 等。值得注意的是，国产 Agent 工具 Manus 的评价也被收录：

Manus highlights its improvements in following complex instructions, clear reasoning, and aesthetic outputs.

这是目前为止 首次有国产 Agent 工具出现在 Anthropic 的正式发布文档中。
考虑到 Anthropic 长期对中国市场较为保守的公开态度（中译中：不友好），这条引用颇有趣味。

附1：Anthropic CEO 的万字檄文

附2：相关链接

Claude Webapp
www.claude.ai

Claude API 文档
docs.anthropic.com

Claude Code GitHub 应用
github.com/anthropic/claude-code

（文：赛博禅心）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31