Claude 4 发布:实测代码更强,同时 Cue 了 Manus

 

今天凌晨,Claude 4 系列模型发布,包括:

  • • Claude Opus 4(旗舰)
  • • Claude Sonnet 4(主力)

这两款模型同时支持扩展推理(extended thinking)、工具调用、文件读取、并行任务等 Agent 工作流所需核心能力。

实测:能完成较为复杂任务

在 WebApp 上,Sonnet 免费,Opus 4 付费
在 API 上,上下文均为 200k,定价与前代一致,每百万 token:
Opus 输入 $15,输出 $75
Sonnet 输入 $3,输出 $15


编程能力提升

作为旗舰模型的 Claude Opus 4 ,针对复杂编程场景,进行了很多优化:

  • • 跨文件编辑能力:模型可识别项目结构,在多个文件间同步修改,减少遗漏;
  • • 复杂指令执行:更好地解析多条件、分步骤的请求;
  • • 长时间任务保持:具备较强的上下文记忆能力,适合执行耗时较长的流程;
  • • 逻辑完整性增强:在多步推理中更少出现跳步或模板式回答的问题。

根据公开基准测试数据,Claude Opus4 在 SWE-bench 中得分为 72.5%,在 Terminal-bench 得分为 43.2%。这两个得分均高于 GPT-4.1(54.6%/30.3%)和 Gemini 2.5 Pro(63.2%/25.3%)。

编程相关跑分

另外的,你会发现 Claude Sonnet 4 在 SWE-bench 得分为 72.7%,略高于 Opus 4。
该模型是对 Sonnet 3.7 的升级,提升了响应速度和执行精度,适合在原有场景中替代旧版使用。

SWE-bench

新能力加入

除了模型本身外,Claude 4 系列还做了几项关键能力提升:

  • • 工具调用能力(beta):模型可以在中途调用工具(如 Web 搜索、本地文件读取、代码执行),用于补充信息或运行指令,适配更多类 Agent 工作流。
  • • 并行工具使用:多个工具调用可同时进行,任务拆解与执行效率提升,适合复杂任务路径或并发型指令。
  • • 内存机制增强:开发者授权 Claude 访问本地文件后,模型可以创建“记忆文档”,记录上下文关键信息,增强长任务一致性和延续性。
通过记忆剧情,让 AI 玩宝可梦
  • • 规避任务“捷径”行为:Anthropic 表示 Claude 4 系列在容易作弊的任务中,出现“偷懒”行为(如跳过中间步骤)的概率减少了 65%,使得多步骤任务执行更稳、更可控。比如下面,这种可恶的代码省略:
  •  

    def square_numbers(numbers):
        result = []
        for n in numbers:
            # ...省略:计算平方
            result.append(n)  # 本应是 result.append(n ** 2)
        return result

    # 测试
    nums = [1234]
    print("Squared:", square_numbers(nums))  # 输出 [1, 2, 3, 4],但本应是 [1, 4, 9, 16]

     

这些东西吧,它没办法体现在跑分离,但在很多编程自动化领域,会非常受用。


Claude Code 更新

Claude Code 已正式开放,方便开发者可以把 Claude 更深地嵌入日常开发流程。新增内容包括:

  • • 支持 GitHub Actions:Claude 可以作为后台 Agent 执行代码任务。
  • • 原生集成 IDE:提供 VS Code 和 JetBrains 插件,Claude 的修改建议会直接以“行内标注”的方式呈现在代码中,无需额外切换。
  • • Claude Code SDK:开发者可以用它来自定义自己的 Agent,或构建 AI 协同工具。
  • • 在 GitHub 中 @Claude:可以 @Claude Code 参与 PR 审查,自动响应修改建议、修复 CI 报错等。

实测

我一直想跑这么一个任务,但无论 GPT、Gemini 还是之前的 Claude 都没有成功:

生成 3D 演示动画,像中学生演示四冲程发动机的工作原理

但在这个这次的 Claude 4 里跑通了:

过程如下

然后…吐个槽,怎么感觉额度消耗的好快,这就让我去加钱了

基础的 Pro 套餐,真的用几下就没了

Manus 出现在官方发布中

在这次发布中,Anthropic 引用了多个第三方开发者工具的反馈,包括 GitHub、Sourcegraph、Augment Code 等。值得注意的是,国产 Agent 工具 Manus 的评价也被收录:

Manus highlights its improvements in following complex instructions, clear reasoning, and aesthetic outputs.

这是目前为止 首次有国产 Agent 工具出现在 Anthropic 的正式发布文档中
考虑到 Anthropic 长期对中国市场较为保守的公开态度(中译中:不友好),这条引用颇有趣味。


附1:Anthropic CEO 的万字檄文

Anthropic CEO 发万字檄文:DeepSeek 崛起,白宫应加码管制

附2:相关链接

Claude Webapp
www.claude.ai

Claude API 文档
docs.anthropic.com

Claude Code GitHub 应用
github.com/anthropic/claude-code

 


(文:赛博禅心)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往