312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
上海交通大学和SII的研究表明,仅需312条人类标注轨迹,并通过合成更多动作决策的思维链补全与轨迹增强技术,就能显著提升电脑智能体(Operator)性能。这一方法使得模型性能提升了241%,超越了基础模型Claude 3.7 Sonnet extended thinking模式,成为Windows系统上开源电脑智能体的新一代SOTA。
上海交通大学和SII的研究表明,仅需312条人类标注轨迹,并通过合成更多动作决策的思维链补全与轨迹增强技术,就能显著提升电脑智能体(Operator)性能。这一方法使得模型性能提升了241%,超越了基础模型Claude 3.7 Sonnet extended thinking模式,成为Windows系统上开源电脑智能体的新一代SOTA。
Anthropic发布Claude 4系列新模型Opus 4和Sonnet 4,称Opus 4为’全球最佳编程模型’。两款新模型均能连续工作数小时,并引入扩展思考与工具使用功能。Claude Code正式上线支持后台任务编写代码分析数据。Anthropic的新发布加剧了与OpenAI、Google在顶级模型领域的竞争,可能重塑软件开发行业格局。
Anthropic CEO Dario Amodei在活动中表示,AI模型产生的幻觉频率低于人类。他认为这并不会阻碍向AGI(具有人类水平或更高智能的AI系统)的发展,并且指出许多幻觉测试都显示AI幻觉现象有所减少。
hropic 正式发布下一代 Claude 模型——Claude 4。
这次更新主要带来了两款模型:
Anthropic发布两款新AI模型Claude Opus 4和Claude Sonnet 4,旨在优化编程任务,并通过亚马逊Bedrock和谷歌Vertex AI提供API服务。Opus 4针对付费用户定价更高,而Sonnet 4免费开放。
Anthropic 发布了下一代 AI 模型 Claude Opus 4 和 Claude Sonnet 4,号称全球最强编码模型。Claude 4 提供更强的工具使用能力、记忆能力和指令遵循准确性,还支持扩展思考模式和开发者插件集成。