Anthropic新模型将“推理模式”与“标准模式”混合:提高数学、物理等方面的表现

Anthropic周一发布名为Claude 3.7 Sonnet的模型,称这种“混合型”模型同时具备“推理模式”(停下来思考复杂答案)与标准模式(实时生成答案)的能力。


Anthropic称,Claude 3.7 Sonnet是市面上唯一的此类“混合”模型,并将立即投入使用。Kaplan将其比作人类大脑的运行方式:有的问题需要深度思考,有的问题需要快速作答。但Anthropic希望将这两种能力整合在同一个模型中,而不是完全分开。


在标准模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版。


在扩展思维模式下,它会在回答前进行自我反思,从而提高其在数学、物理、指令遵循、编码和许多其他任务上的表现。


在开发推理模型时,Anthropic对数学和计算机科学竞赛问题的优化较少,而是将重点转向更能反映企业实际如何使用 LLM 的现实任务。


早期测试表明,Claude 在编码能力方面全面领先:Cursor 指出,Claude 在实际编码任务中再次名列前茅,在处理复杂代码库和高级工具使用等领域都有显著改进。Cognition 发现,在规划代码更改和处理全栈更新方面,Claude 远胜于任何其他模型。Vercel 强调了 Claude 在复杂代理工作流程中的精确度,而 Replit 已成功部署 Claude 从头开始构建复杂的 Web 应用程序和仪表板,而其他模型则停滞不前。在 Canva 的评估中,Claude 可生成具有卓越设计品味的生产就绪代码,并减少了错误。



Claude 3.7 Sonnet 在指令遵循、一般推理、多模态能力和代理编码方面表现出色,扩展思维在数学和科学方面提供了显著的提升。除了传统的基准测试之外,它甚至在Pokémon 《精灵宝可梦》游戏测试中超越了所有以前的模型。


与此同时,媒体报道称,Anthropic即将完成一轮35亿美元的融资,公司估值将达到615亿美元。公司本轮融资的最初目标为20亿美元,但在谈判期间成功说服投资者增加投资。本轮融资的参与者包括Lightspeed Venture Partners、General Catalyst和Bessemer Venture Partners,总部位于阿布扎比的投资公司MGX正在洽谈参与事宜。


在此此前,亚马逊已向Anthropic累计投资80亿美元,而谷歌母公司Alphabet已向其投资20亿美元。



  

(文:多知)

欢迎分享

发表评论