OpenAI 深夜发布 ChatGPT Agent:对标Manus、硬刚 Grok 4

作者 | 岑祎扬
责编 | 王启隆
品 | AI 科技大本营(ID:rgznai100)
投稿或寻求报道 | zhanghy@csdn.net

在马斯克发布 Grok 4 模型之后,OpenAI 带着新产品来了。 

这次发布会没有网传的 GPT-5 或者 Open-Weight 的模型,但首发了 Manus 同款的 ChatGPT Agent。

ChatGPT Agent的核心亮点在于它整合了“Operator” 网络搜索智能体与“Deep Research”深度研究智能体。OpenAI表示,这解决了上一代产品的功能局限。“Operator”虽然擅长网络信息检索,却无法进行深度分析和撰写专业报告;而“Deep Research”虽具备研究能力,但无法实时利用网站信息或访问需用户验证的内容来优化报告。

工具方面,OpenAI为 ChatGPT 配备了图形化浏览器、文本浏览器、命令行终端及API调用等多种工具,使其能通过文本与视觉画面全面理解网络信息。ChatGPT 甚至可以接入用户的邮件和 GitHub 账户,从而在回答中融入个性化内容。对于需要用户认证的网站,用户可在智能体内置的浏览器中完成登录,授权智能体执行更深入的研究与任务。这种多路径的信息获取与交互方式,让ChatGPT 能自主选择最高效的方案来完成任务。

在运行机制上,ChatGPT Agent 可以调用虚拟计算机运行代码或搜索信息。用户可以随时终止或接管正在执行的任务,并获取已经生成的结果保证了用户的主导权。在补充信息或提供新的指令后,ChatGPT 能够无缝继续之前的工作,并在必要时向用户请求进一步的澄清,实现了高效的人机协同。

然而ChatGPT Agent 所展示的许多核心功能,都与此前的 Manus 高度相似。在首发演示中,Manus 就已展示了调用其虚拟计算机来解压并阅读用户简历的能力并可以任务执行过程中随时中断、添加新的简历或要求生成新的数据表格。

在与网络环境的交互方面,Manus 也能够像真人一样浏览网站,根据用户设定的具体要求(如租金、位置、学区)筛选并记录房屋信息。值得注意的是,在处理银行卡号等敏感信息的环节,Manus 也支持用户随时接管操作界面,从而保障个人隐私安全。从可中断的工作流到安全的私密信息处理,再到定时执行任务的能力

在性能方面,ChatGPT Agent 展现了其前沿水平。在测试专家级知识的 HLE(Humanity’s Last Exam)基准测试中,ChatGPT 的最高得分达到44.4%,与Grok 4持平。而在 FrontierMath 数学测试中,ChatGPT Agent 更是以显著优势登顶,成绩高出 o4 mini 8%,比 Grok 4 高出15%。

在处理数据任务的 DSBench 测试中,ChatGPT Agent 大幅领先人类专家,数据分析和数据建模的优势分别达到了25%和20%。然而,OpenAI 首次引用的电子表格(Spreadsheet)测试却暴露了当前AI的短板。即便能够调用 Excel 工具,ChatGPT Agent 的正确率也仅为45%,远低于人类71%的水平。这似乎在暗示,即使AI的浪潮冲击着各行各业,需要复杂逻辑的会计等岗位短期内仍难以被完全取代。

正如 Anthropic 在 Claude Research 文章所陈述的观点,目前的智能体更适合应用于金融等高回报、高价值的任务场景。在内部的投行建模测试中,ChatGPT Agent 成功完成了71.3%的入门级任务(例如,为一家财富500强公司建立标准的三报表财务模型),表现明显优于 o3 和DeepResearch。巧合的是,Anthropic 也在同日宣布了其金融智能体的计划这预示着金融投资领域正迅速成为顶级 AI 公司竞逐的下一个焦点。

从亚马逊发布 Kiro 智能体编程软件,到马斯克为 Grok 增加“同伴模式”以深化人机交流,再到 Manus 在日常任务自动化上的探索,智能体的应用市场已初显拥挤。在此背景下,OpenAI 与 Anthropic 不约而同地将目光投向金融行业,揭示了智能体竞赛的下一个方向。

· · ·

📢 AI 产品爆发,但你的痛点解决了吗?

2025 全球产品经理大会

8 月 15–16 日 

北京·威斯汀酒店

互联网大厂、AI 创业公司、ToB/ToC 实战一线的产品人

12 大专题分享,洞察趋势、拆解路径、对话未来。

立即扫码领取大会PPT

抢占 AI 产品下一波红利


(文:AI科技大本营)

发表评论