312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
上海交通大学和SII的研究表明,仅需312条人类标注轨迹,并通过合成更多动作决策的思维链补全与轨迹增强技术,就能显著提升电脑智能体(Operator)性能。这一方法使得模型性能提升了241%,超越了基础模型Claude 3.7 Sonnet extended thinking模式,成为Windows系统上开源电脑智能体的新一代SOTA。
上海交通大学和SII的研究表明,仅需312条人类标注轨迹,并通过合成更多动作决策的思维链补全与轨迹增强技术,就能显著提升电脑智能体(Operator)性能。这一方法使得模型性能提升了241%,超越了基础模型Claude 3.7 Sonnet extended thinking模式,成为Windows系统上开源电脑智能体的新一代SOTA。
2025年,OpenAI发布多款AI Agent工具,包括联网搜索工具、文件搜索工具和计算机操作工具等。OpenAI推出的Responses API能同时调用多个工具,并使用Agents SDK简化Agent的创建与管理。
Manus 是一个由中国团队开发的 AI Agent 产品,它可以在虚拟环境中调用各种工具完成复杂任务。虽然其功能类似其他已有的 AI Agent,但因其封闭的邀请码机制和社交传播效果显著,在AI圈内迅速流行。然而,与 DeepSeek 相比,Manus 的成功更多依赖于营销策略而非技术实力。
OpenAI推出Deep Research功能,可快速完成复杂研究任务。该功能允许更多订阅用户每月查询10次,并嵌入带引用的图片和上传文件。OpenAI强调其安全性测试及隐私保护措施。
QQ 浏览器等产品升级,AI 搜索、文档生成免费开放!
2️⃣
💻
DeepSeek
开源在即
:2
Sam Altman 在 OpenAI 的问答活动中表示,OpenAI 目前的重点是优化 Operator,并推出语音模式更新,而非立即追求开源策略。他提到递归自我提升可能很快实现,但 AGI 模型的加速科学发现可能是最大的影响。
OpenAI发布首个智能体Operator后,Every CEO和联创Dan进行了实测,仅成功完成2项任务。结论包括浏览限制、任务范围有限及提示的重要性。Operator在购票、房屋清洁等具体任务上表现出色,但在复杂分析或需要深入了解的任务中表现不佳。
OpenAI推出Operator,首个AI智能体支持网页执行任务。无需API,结合GPT-4o视觉功能与高级推理能力,目标进入Level 3 AI阶段。目前已面向ChatGPT Pro用户在美国上线测试。