Anthropic 昨日推出了新一代 Claude 模型,包括 Claude Opus 4 和 Claude Sonnet 4,在编码、高级推理和 AI Agent 方面树立了新标准。

Claude 4 关键亮点:
- 卓越的编码能力:
- Claude Opus 4 被誉为全球最佳编码模型,在 SWE-bench 和 Terminal-bench 等基准测试中表现优异,尤其擅长处理需要持续努力和数千个步骤的长时间任务。
- Claude Sonnet 4 在 Sonnet 3.7 的基础上显著提升,在编码方面达到行业领先水平,在 SWE-bench 上实现了 72.7% 的成绩,平衡了性能与效率。
- 两者都能在各种开发场景中发挥作用,如 GitHub Copilot、Cursor、Replit、Block 和 Rakuten 等公司都对其编码能力给予了高度评价。
-
- Agent 能力的显著提升:
- 扩展思维与工具使用(测试版): 两个模型都能在扩展思维过程中使用工具(如网页搜索),在推理和工具使用之间切换,从而改进响应。
- 并行工具执行: 模型可以并行使用多个工具。
- 记忆能力增强: 在开发者授予本地文件访问权限时,Opus 4 能显著提升记忆能力,提取并保存关键信息以保持连贯性并建立隐含知识。例如,在玩 Pokémon 时,Opus 4 可以创建并维护“记忆文件”来存储关键信息。
-
- 行为改进: 模型使用捷径或漏洞来完成任务的行为减少了 65%
- 全新的 API 功能,助力构建更强大的 AI Agent:
- 代码执行工具: 允许 Claude 在沙盒环境中运行 Python 代码,进行高级数据分析和可视化,实现金融建模、科学计算、商业智能、文档处理和统计分析等。
- MCP 连接器: 使开发者能够轻松连接 Claude 到任何远程模型上下文协议 (MCP) 服务器,无需编写客户端代码,简化了与外部系统的集成(如 Zapier 和 Asana)。
- 文件 API: 简化了文档的存储和访问方式,允许开发者一次上传文档,并在多次对话中重复引用,尤其适用于处理大型文档集。
- 扩展提示缓存: 开发者可以选择将提示缓存的生存时间延长至 1 小时(标准为 5 分钟),显著降低了长时间运行的 Agent 工作流的成本和延迟,提升了 Agent 在长时间内保持上下文的能力。
- 可用性和定价:
- Claude Opus 4 和 Sonnet 4 均为混合模型,提供两种模式:近乎即时响应和用于深度推理的扩展思维。
- Pro、Max、Team 和 Enterprise Claude 计划均包含这两个模型和扩展思维功能,Sonnet 4 也面向免费用户开放。
- 这两个模型均可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 获取。
- 定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万 tokens 15/75 美元(输入/输出),Sonnet 4 为 3/15 美元。
- Claude Code 全面上市:
- 作为一项独立的工具,Claude Code 现在全面上市,支持通过 GitHub Actions 进行后台任务,并与 VS Code 和 JetBrains 进行原生集成,直接在文件中显示编辑,实现无缝结对编程。
- 还发布了可扩展的 Claude Code SDK,允许开发者构建自己的 Agent 和应用程序。
Anthropic 表示,这些模型朝着虚拟协作器迈出了重要一步,它们能够保持完整的上下文,持续专注于更长的项目,并带来变革性的影响。公司也进行了广泛的测试和评估,以最大限度地降低风险并提高安全性。
公众号回复“进群”入群讨论。
(文:AI工程化)