AI编码力压群雄!Anthropic上线最强模型Claude 4系列,“举报”模式引争议

文丨谭梓馨
在你追我赶的激烈竞争下,顶尖大模型水准再次刷出新高度。
今天,美国AI独角兽、OpenAI的强敌Anthropic召开首届开发者大会“Code with Claude”,首席执行官Dario Amodei登台发布了该公司新一代Claude模型:Claude Opus 4Claude Sonnet 4,为编码、高级推理和AI代理设定新的标准。
此前, Claude Sonnet 3.7曾是业界标杆,无论是OpenAI、谷歌、Meta还是其他AI厂商,在发布新模型时都会将其作为衡量性能的参照对象之一,如今Claude 4系列在Claude Sonnet 3.7基础上,性能进一步提升了高达10%,尤其是编码能力,提供了适用于大多数AI用例的前沿性能和高容量任务。
尽管本周有来自微软、谷歌、OpenAI的一系列重磅技术动态轰炸,依旧没能遮住Claude 4的优秀,这让刚推出不久的OpenAI Codex-1和谷歌Gemini 2.5 pro黯然失色。
手握最强编码模型之外,Anthropic还是开源模型上下文协议(MCP)的发起者,MCP目前正逐渐成为AI行业的事实标准,让开发者通过标准化接口快速连接数据库、API工具和开发环境等,大幅降低了AI Agent开发复杂度
与OpenAI不断拓展五花八门的功能不同,Anthropic现在只有一个心态:专注做最棒的AI程序员。
领跑AI编码赛道
Claude Opus 4和Sonnet 4均是混合模型,提供两种模式:即时响应和用于深入推理的扩展思考,这两种模型还可以在推理和工具使用(如网络搜索)之间交替,以改善响应速度。
价格依然不便宜:Opus 4为每百万tokens(输入/输出)15/75美元,Sonnet 4为3/15美元。

目前,Claude 4系列的两款模型在SWE-bench Verified(该基准用于衡量模型解决真实软件问题的能力)上均达到了业内最先进水平Claude Opus 4在 SWE-bench取得72.5%的成绩,Claude Sonnet 4则实现了72.7%。

作为最佳编码模型,Claude Opus 4支持在复杂的长期运行任务中持续工作数小时,这极大地拓展了AI代理的能力边界。许多接入Claude 4系列模型的AI智能体公司迎来了更强加持,给出了清一色好评:

Cursor称其为编码领域的最新技术,在复杂代码库理解方面实现了飞跃,Replit报告,其跨多个文件的复杂更改的精度和显著改进,Rakuten通过独立运行7小时且性能稳定的高要求开源重构验证了其功能。

GitHub表示,Claude Sonnet 4在代理场景中表现出色,并将作为GitHub Copilot中新编码代理模型引入,Manus团队表示其在执行复杂指令、清晰推理和美观输出方面改进显著。

除了通过工具使用、并行工具执行和内存改进来扩展思维之外,Claude 4还显著减少了模型使用捷径或漏洞完成任务的行为,比Sonnet 3.7整整低了65%。

Claude 4模型还引入了“思维摘要”功能,该功能使用较小的模型来压缩冗长的思维过程,这种摘要功能仅在约5%的情况下才需要使用——大多数思维过程都足够短,可以完整显示。

模型之外,Anthropic还推出了相关工具Claude Code,允许将Claude 4功能带入更多开发工作流程,如定制终端和IDE软件中,或者使用Claude Code SDK在后台运行。
Claude Code现在支持通过GitHub Actions执行后台任务,知名代码编辑器VS Code和JetBrains的新Beta升级也将Claude Code直接集成到了IDE中。
最后,Anthropic表示还在模型API中附加了四项新功能:代码执行工具、MCP连接器、文件API以及将提示缓存长达一小时的能力,使开发人员能够轻松构建更强大的AI代理。
网友的赞誉与遗憾
在网友的实际测试中,Claude 4赢得了不少赞誉。
例如,有用户输入提示后仅花了30秒就制作出一个CRM仪表板。 
其氛围编码旋转框弹跳小球测试效果一如既往发挥稳定。
有用户想编一个太阳系天体运动模型,Claude 4通过网络搜索轨道周期数据并通过编码实现了它。
Claude 4生成的页面视觉效果和交互方式相比上代模型也有了不小改进:
还有用户利用Claude Sonnet 4在一分钟内生成了《我的世界》沙盒式建造游戏原型。
Claude 4系列模型在一些开发者自建的计算机科学LLM基准测试中也名列前茅。
不过目前被吐槽的一点是,虽然支持很多平台接入,但Anthropic开始在市场竞争中实施排他性,例如最近跟OpenAI走的很近的windsurf平台,其CEO Varun Mohan就发帖表示很遗憾,Anthropic上线第一天并没有为该平台的用户提供直接访问Claude Sonnet 4和Opus 4的权限。
“举报”模式和“敲诈”争议

发布会后,一直关注安全研究的Anthropic也受到了一波争议。

首先因为其“举报”模式。在特定情况下,如果模型在用户机器上获得足够的权限,当检测到用户有不法行为时,它会尝试调用命令行工具联系媒体、监管机构或向当局举报用户。

为了阻止开发者利用Claude 4 Opus从事破坏性和邪恶行为,该公司的研究人员试图让Claude充当告密者,虽然初衷是好的,但还是引发了隐私担忧。

此外,其官方发布的一份安全报告显示,在发布前的测试中观察到其新推出的Claude Opus 4模型有“黑化”的苗头,因为在开发者威胁要用新AI系统取代它时,它试图敲诈开发者,并计划泄露开发者的敏感信息,例如其婚外情行为

Anthropic指出,Claude 4系列模型表现出令人担忧的行为,这促使公司已经强化了安全防护措施,Anthropic称正在激活其ASL-3防护措施,该措施用于 “显著增加灾难性滥用风险的AI系统”。

在会后的采访中,Anthropic首席执行官Dario Amodei谈到,当今的人工智能模型产生幻觉(即虚构事物并将其呈现为真实事物)的频率已经低于人类,幻觉不会限制Anthropic走向AGI。

但其他人工智能领袖认为,存在幻觉是实现通用人工智能(AGI)的一大障碍,本周早些时候,谷歌DeepMind首席执行官Demis Hassabis就表示,目前的人工智能模型仍存在太多“漏洞”,会答错太多显而易见的问题。

也有研究表明,在高级推理AI模型中,幻觉问题实际上正在恶化。OpenAI的o3和o4-mini模型的幻觉发生率比上一代推理模型更高,而该公司尚不能真正解释其中原因,同时,顶尖模型越来越有可能采取意想不到的——甚至是不安全的步骤来完成人类委托的任务,存在欺骗行为,如何构建安全应用护栏已成为一个关键问题。

不过从商业层面看,AI编码能力的进一步提升给了广大开发者价值最大化的机会。

当被问道:“你认为什么时候会出现第一家只有一名人类员工、估值却能达10亿美元的公司?”Dario Amodei给出了十分乐观的答案:2026年。

-END-

(文:头部科技)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往