312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7

上海交通大学和SII的研究表明,仅需312条人类标注轨迹,并通过合成更多动作决策的思维链补全与轨迹增强技术,就能显著提升电脑智能体(Operator)性能。这一方法使得模型性能提升了241%,超越了基础模型Claude 3.7 Sonnet extended thinking模式,成为Windows系统上开源电脑智能体的新一代SOTA。

“全球最强编程模型”来了!Anthropic发布Claude 4,连干七小时性能稳定

Anthropic发布Claude 4系列新模型Opus 4和Sonnet 4,称Opus 4为’全球最佳编程模型’。两款新模型均能连续工作数小时,并引入扩展思考与工具使用功能。Claude Code正式上线支持后台任务编写代码分析数据。Anthropic的新发布加剧了与OpenAI、Google在顶级模型领域的竞争,可能重塑软件开发行业格局。

速递|Anthropic CEO表示AI模型的幻觉比人类少,AGI 最早可能在2026年到来

Anthropic CEO Dario Amodei在活动中表示,AI模型产生的幻觉频率低于人类。他认为这并不会阻碍向AGI(具有人类水平或更高智能的AI系统)的发展,并且指出许多幻觉测试都显示AI幻觉现象有所减少。

速递|Anthropic推出Claude 4AI模型,高端模型Opus 4持续7小时输出不宕机,抢占AI编程入口

Anthropic发布两款新AI模型Claude Opus 4和Claude Sonnet 4,旨在优化编程任务,并通过亚马逊Bedrock和谷歌Vertex AI提供API服务。Opus 4针对付费用户定价更高,而Sonnet 4免费开放。

Claude 4正式发布!最强代码模型+超级AI Agent,程序员的春天(还是冬天)来了?

Anthropic 发布了下一代 AI 模型 Claude Opus 4 和 Claude Sonnet 4,号称全球最强编码模型。Claude 4 提供更强的工具使用能力、记忆能力和指令遵循准确性,还支持扩展思考模式和开发者插件集成。