十问Claude3.7，推理模型的风还是吹到了AI编程

One model, two ways to think.

应该没有人比 Anthropic 更懂取名字了吧，

蹲了大半年的新模型，代码能力提升了20%，还是首发的混合推理模型。。。

结果取名叫Claude 3.7 Sonnet。

好好好，

之前在模型名字后面直接加一个(new)就算了。那么多名字不选，取一个3.7，建议下次更新就叫3.7.1，估计 OpenAI 更新到 o10，Claude 还在第3代。

体验了快一天，直接说说结论：

编程还是断代的强，测下来稳超过 o1 pro、o3-mini-high和R1，Cursor已经支持上了。3.7 Sonnet 把 SWE 编码测试刷到了70%，拉高了20分
这次报告强调增强了编程，没有刻意提升数据和科学。至于中文写作能力、理解能力就更一般了，没啥提升，整体水平并没超过o1 pro、Grok3、R1等推理模型。这可能就是不叫 Claude4 的原因
还是没有联网，3.7版本的知识截止日期为2024年10月。
API 价格不变，每百万输入是$$15。在API调用时，我们可以控制输出的长度来控制模型思考时长（这点建议其他家都跟上）
跟OpenAI、XAI不同，Claude不怕蒸馏，公开了模型的思考过程
这次还带上了一个AI编程工具 Claude Code，官方管它叫 Agentic Coding 工具（Cursor冷汗直冒）

接下来就是实际效果，Here we go！

一、混合推理模型 Claude 3.7 Sonnet

Claude 3.7 Sonnet的定位是一个混合推理模型。也就是一个模型包含快慢思考能力。这个在之前 Jared Kaplan 的采访里面就已经预告了，当时以为会是等用户输入后，模型主动判断是不是要思考。

但目前的交互方式来说，普通模式（ Normal ）和推理模式（Extended）还是区分开了。在对话界面里，如果你从普通模型切换到推理模式的话，是默认会新建一个对话的。也就是说虽然这是一个混合模型，但是单次对话我们只能体验其中一个形态。

PS：这两个模型的区别是让同一个模型在回答时候是否能拥有更多的思考时间并付出更多努力。

我最关心的还是 Claude 的编程能力，毕竟现在封的太离谱了，网页端都到了不太能用的状态了。日常使用最多的场景就是跟 Cursor 结合了。

除了官方例子，我看到最多的就是这个天气组件生成。我上手实现是一遍过，一步就能出结果

还有DeepSeek R1的运行版本，可以对比看看。

提示语来了：

Prompt: Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each.

还有很多很夸张的运行例子，用3.7 Sonnet直接写一个能在苹果手表上运行的贪吃蛇游戏。

还有能够真正升级通关的小游戏，要之前上次 Artifacts 推出的时候，做的魂斗罗也就只能在平面2D蹦蹦跳跳，这次还可以计算出物体之间碰撞和游戏主题的移动。

更过分的是，这次Anthropic直接让3.7 Sonnet玩宝可梦红（Pokémon Red）。这也是我很想复现的一个例子，蹲一波测试代码公开啊。

3.7 Sonnet同样支持Computer Use，所以有了基本的按键操作和屏幕输入后，3.7 Sonnet成功挑战了3个道馆馆主，在游戏的过程中会自动调整游戏策略，这样的话下半年是不是能帮我打黑猴了。

这款游戏的难度不亚于之前OpenAI o3在ARC-AGI的断档级表现。Claude 3.0 Sonnet 甚至没能出游戏初始房间。

最后，我们再来看看模型的SVG能力，

这个是Andrej Karpathy测试Grok3提出来的新问题，目标是生成一只能够骑自行车的鹈鹕，考验的是模型的排线能力。

二、编程工具 Claude Code

最后 Anthropic 还放出了自家的AI编程工具，Claude Code。

跟Cursor、Trae、Windsruf等不一样的是，这款工具是居住在终端的Agent编码工具，可以说它像AutoGPT、也像Warp等AI命令行。

主要能力就是搜索、阅读代码、编辑文件和运行测试，跟Github联动后能直接提交和推送代码。我让Grok3帮我总结了一下使用方法，基本是“\+特定指令”来完成任务

目前限量预览：

🔗 https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

写在最后

Claude 还发布了他们的 AI助手的发展路线图

我们可以看到2024年到2027年的预想发展，

而事实也正如他们期待的那样，

从解决简单的个人问题，到帮助团队解决复杂问题，

一步一步前进着。

而身在洪流浪潮中的我们，每一天都在感受着迭代带来的巨大震撼。

仅仅只是今天开年，我们就迎来了如此之多的更新，

Qwen和DeepSeek还在发力，

未来究竟会是怎样的未来，

我将每天都充满期待。

@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro

（文：卡尔的AI沃茨）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复