AI好好用报道
行业似乎正朝着一个未来迈进,即一个模型可以做所有事情,而不是提供独立的推理模型。

它不仅是 Anthropic 首个能够推理的 AI 模型,还号称业界首个「混合推理模型」。
前两天也有科技媒体报道,OpenAI 可能即将发布自己的混合 AI 模型。
啥叫混合推理模型?
简单来说,o3-mini、R1、Gemini 2.0 Flash Thinking 和 Grok 3 ( Think ) 等都是单独提供推理模型。

而 Claude 3.7 Sonnet 用一种混合推理架构,将逻辑推理与生成能力进行了深度融合。
换句话说,Claude 3.7 Sonnet 既是普通的基础模型,日常唠嗑秒回你(标准模式);又是推理模型,遇到烧脑题可切换学霸模式(扩展模式)。
聊天框里就能自由切换,非常方便!

咱们人类聊天,简单问题脱口而出,复杂问题托腮思考,根本没有两个独立的大脑分别应对不同问题。
所以,Anthropic 认为,推理只是前沿模型应该具备的功能之一,可以与其他功能顺利整合,不该是个需要单独付费才能访问的独立功能。
只要你是付费用户,这波升级就算白给!
还是每月 20 美元的订阅费,即可解锁推理功能!

开发者可通过「scratchpad」功能干预模型思考过程,甚至精确控制响应时间(如要求200毫秒内响应)。
据《华尔街日报》的报道,Anthropic 发布 Claude 3.7 Sonnet,年化收入约为 12 亿美元,公司仍在亏损。
Anthropic 正在完成一轮 35 亿美元的融资,估值达到 615 亿美元。如果融资成功,Anthropic 的总筹集金额将接近 180 亿美元。
-1-
代码:妥妥的 NO.1
基准测试显示,3.7 版本在数学和编码任务中表现显著提升,能处理更复杂的多步骤问题。
简单探讨颜色名称的起源与历史事件之间的关系——「如果没有 Magenta 这个小镇,『洋红色』的叫法还存在吗?」
启动扩展思考,Claude 3.7 Sonnet 推理能力显然在线:
名字来源于纪念这座小镇的一场战役,如果小镇不存在,这个颜色的名字就可能是另一个名称,答案说,不会有这个名字的存在。
正确!
来自科技媒体arstechnica
当然,3.7 版本的编码能力最为突出,以至于人们会揣测 Anthropic 要将 Sonnet 系列定位为编码 AI。
一些科研人员也与 Nature 分享过经验,认为 Claude 属于「代码型」。
事实上,Claude 3.5 早已是很多开发者心目中最佳的 AI 编程的模型,Claude 3.7 进一步将这一优势提升了 20%,稳居第一。
Claude 一直就是很多开发者心目中最佳的 AI 编程的模型。
新模型到底有多惊艳呢?
有网友用 Claude 3.7 Sonnet 编写新春版贪吃蛇游戏,一次成功。
来自 X @wshuyi
生成动画天气卡片,展示四种天气条件:风、雨、晴、雪,每种都有不同的动画效果,并且要并排显示在一个深色背景上。
此外,还要有一个功能或按钮来切换不同的天气条件,展示每种动画。
X@AGI_FromWalmart
更复杂一点。「做一个可以互动的时间机器,挑选一些不寻常的时代,供人穿越回到过去,并发生一些有趣的事情。」并且,「添加更多图形。」
仅仅通过这两个提示,就产生了一个完全可互动的体验,配有粗糙但迷人的像素图形。
这里的挑战性在于 AI 必须用纯代码「绘制」这些图形,这就像要求一位盲人画家准确呈现它们。
来自X@emollick
再来一个。让 Claude 基于赫尔曼·梅尔维尔的故事《巴特比,抄写员》创作一款具有独特机制的视频游戏。
结果,它仅凭一个提示就完成了。

来自X@emollick
创建一个 3D 城市场景。

来自 X@ozgrozer
一个三角球在十二边形内弹跳,每次弹跳时球都会改变颜色,背景是太空。

来自X@KungFuKurrupttt
看看这个多米诺骨牌效应。

来自 X@_akhaliq
-2-
AI Agent :Claude Code
到目前为止,2025 年是 R1 、 o3、以及 AI Agent 工具(如 OpenAI 的Operator 和 Deep Research )的一年。
Anthropic 也不甘落后,同时宣布了其首款代理工具 Claude Code。
这是一款自主编码助手,你可以直接将大量的终端任务委派给它—— Claude Code 可以搜索和阅读代码、编辑文件、编写和运行测试、提交和推送代码到 GitHub,以及使用命令行工具。
有人用 Sonnet 3.7 进行视频编码,发现效果非常出色。他们还开发了一个机器人,这个机器人可以使用 Claude Code 将 Linear 任务工单自动转换成 GitHub 上的拉取请求。
来自X@pveerina
在这个案例中,Claude 3.7 Sonnet 与 Claude Code 一次性创建了整个玻璃风格的设计系统,包含所有组件, 甚至正确使用了变量而不是像颜色等那样硬编码。
来自X@skirano
Anthropic 还希望 Claude Code 能作为调试和重构任务的助手。公司声称,在内部测试中,Claude Code 能在一次会话中完成通常需要超过 45 分钟的手动工作。
目前,Claude Code 仅作为有限的研究预览提供,Anthropic 表示计划根据用户反馈不断改进该工具。
-3-
svg 绘图王者
还记得那个让大模型恼火的 svg 绘图挑战赛吗?请画一只骑自行车的鹈鹕。

在这场 svg 可视化能力实测中,大模型们几乎全军覆没,除了 Claude,以至于 Andrzej Karpathy 推测 Claude 是针对 svg 专门训练过的。
这回,Claude 3.7 再次证明自己依然是 svg 可视化的王者。
来自X@simonw,这是没有启用推理功能(左)和启用后(右)的对比。
有网友请它创建一个 svg 格式的 Swimlane Diagram,需要满足一系列复杂的规范。
结果,3.7版本完美生成了 svg 的 Swimlane Diagram。
来自X@LinearUncle
还有人发现花的 tokens 越多,独角兽越像独角兽。

「为什么程序员要洗澡?因为他们要调试代码!」
「气象学家对 IT 专家说了什么?『你的云计算预测看起来有点技术性,还有更新的可能!』」
………
看完后,我只想说「把我的枪拿来。」

来自科技媒体arstechnica
(文:AI好好用)