实测新版DeepSeek-R1-0528,完全不输Claude 4
临近下班时,DeepSeek发布了一则通知,宣布其R1模型完成小版本试升级,并邀请开发者进行测试。实测显示,新版本具有强大的编程能力及高级感的设计,能够快速生成各种前端界面和计算工具。总体而言,DeepSeek-R1-0528的性能表现超出了Claude 4和Gemini 2.5 pro的表现水平。
临近下班时,DeepSeek发布了一则通知,宣布其R1模型完成小版本试升级,并邀请开发者进行测试。实测显示,新版本具有强大的编程能力及高级感的设计,能够快速生成各种前端界面和计算工具。总体而言,DeepSeek-R1-0528的性能表现超出了Claude 4和Gemini 2.5 pro的表现水平。
新版DeepSeek-R1开源,性能几乎与o4-mini相当。编程能力超越Claude 4 Sonnet,网友称赞思考时间长且逻辑缜密。对比Gemini 2.5 Pro在特定任务上表现出色,引发广泛关注。
Anthropic发布Claude 4家族,包含Claude Opus 4和Claude Sonnet 4两个版本。Opus 4在编程基准测试SWE-bench上得分72.5%,Sonnet 4则在SWE-bench上得72.7%。两款模型均采用混合架构,并提供两种工作模式:近即时响应和深度思考推理。Claude Opus 4还具备调用工具的能力,带来一系列新功能和突破性的能力。
谷歌在I/O开发者大会上发布了新版Gemini 2.5 Pro Preview,该模型已在网页版、App端和开发者平台全面上线,并提供免费的25次每日使用额度。它被认为目前是地表最强且免费的多模态模型,尤其擅长编程任务。此外,新版还支持100万 tokens 上下文,具备强大的推理能力和前端UI优化能力。
Google I/O开发者大会提前两周举行,推出的新版本Gemini 2.5 Pro在编程能力上大幅提升,击败了Claude 3.7和o3等模型。其功能还包括模拟物理系统、创建游戏以及生成代码块等内容。
Google DeepMind的Gemini 2.5 Pro更新提升了编程能力和多模态推理功能,可构建Web应用、游戏和模拟程序,并根据自然图像生成代码。