
作者|子川
来源|AI先锋官
深夜王炸,就在刚刚Anthropic发布了最新模型Claude 3.7和全新智能体Claude Code,编程能力大幅度提升!



注:SWE-bench Verified 是 OpenAI 推出的一个经过人工验证的基准测试工具,旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。
同时在TAU-bench (智能体工具使用基准测试)中,在 零售 (retail) 和 航空 (airline) 两个场景中,Claude 3.7分别取得了 81.2% 和 58.4% 的领先成绩。

Claude Code 是一款集成在终端中的代理编码工具,能够理解并操作代码库。
只需在命令行输入指令,就能让 AI 智能体完成代码搜索、文件编辑、测试编写和运行、代码提交和推送等一系列复杂的编程任务。
能一次性完成通常需要45分钟的工作量。
主要功能包括:
-
编辑文件并修复代码库中的错误; -
解释代码架构和逻辑相关问题; -
执行、检查并修复测试、代码规范(linting)和其他命令; -
搜索 Git 历史记录,解决合并冲突,并创建提交和拉取请求(PR)。
Anthropic表示正在收集开发人员关于 AI 协作偏好、哪些工作流程最受益于 AI 协助以及如何提升整体使用体验,这个早期版本将根据用户反馈不断改进。
(文:AI先锋官)