OpenAI 深夜发布 ChatGPT Agent：对标Manus、硬刚 Grok 4

作者 | 岑祎扬

责编 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

投稿或寻求报道 | zhanghy@csdn.net

在马斯克发布 Grok 4 模型之后，OpenAI 带着新产品来了。

这次发布会没有网传的 GPT-5 或者 Open-Weight 的模型，但首发了 Manus 同款的 ChatGPT Agent。

ChatGPT Agent的核心亮点在于它整合了“Operator” 网络搜索智能体与“Deep Research”深度研究智能体。OpenAI表示，这解决了上一代产品的功能局限。“Operator”虽然擅长网络信息检索，却无法进行深度分析和撰写专业报告；而“Deep Research”虽具备研究能力，但无法实时利用网站信息或访问需用户验证的内容来优化报告。

工具方面，OpenAI为 ChatGPT 配备了图形化浏览器、文本浏览器、命令行终端及API调用等多种工具，使其能通过文本与视觉画面全面理解网络信息。ChatGPT 甚至可以接入用户的邮件和 GitHub 账户，从而在回答中融入个性化内容。对于需要用户认证的网站，用户可在智能体内置的浏览器中完成登录，授权智能体执行更深入的研究与任务。这种多路径的信息获取与交互方式，让ChatGPT 能自主选择最高效的方案来完成任务。

在运行机制上，ChatGPT Agent 可以调用虚拟计算机来运行代码或搜索信息。用户可以随时终止或接管正在执行的任务，并获取已经生成的结果，保证了用户的主导权。在补充信息或提供新的指令后，ChatGPT 能够无缝继续之前的工作，并在必要时向用户请求进一步的澄清，实现了高效的人机协同。

然而，ChatGPT Agent 所展示的许多核心功能，都与此前的 Manus 高度相似。在首发演示中，Manus 就已展示了调用其虚拟计算机来解压并阅读用户简历的能力，并可以在任务执行过程中随时中断、添加新的简历或要求生成新的数据表格。

在与网络环境的交互方面，Manus 也能够像真人一样浏览网站，根据用户设定的具体要求（如租金、位置、学区）筛选并记录房屋信息。值得注意的是，在处理银行卡号等敏感信息的环节，Manus 也支持用户随时接管操作界面，从而保障个人隐私安全。从可中断的工作流到安全的私密信息处理，再到定时执行任务的能力。

在性能方面，ChatGPT Agent 展现了其前沿水平。在测试专家级知识的 HLE（Humanity’s Last Exam）基准测试中，ChatGPT 的最高得分达到44.4%，与Grok 4持平。而在 FrontierMath 数学测试中，ChatGPT Agent 更是以显著优势登顶，成绩高出 o4 mini 8%，比 Grok 4 高出15%。

在处理数据任务的 DSBench 测试中，ChatGPT Agent 大幅领先人类专家，数据分析和数据建模的优势分别达到了25%和20%。然而，OpenAI 首次引用的电子表格（Spreadsheet）测试却暴露了当前AI的短板。即便能够调用 Excel 工具，ChatGPT Agent 的正确率也仅为45%，远低于人类71%的水平。这似乎在暗示，即使AI的浪潮冲击着各行各业，需要复杂逻辑的会计等岗位短期内仍难以被完全取代。

正如 Anthropic 在 Claude Research 文章中所陈述的观点，目前的智能体更适合应用于金融等高回报、高价值的任务场景。在内部的投行建模测试中，ChatGPT Agent 成功完成了71.3%的入门级任务（例如，为一家财富500强公司建立标准的三报表财务模型），表现明显优于 o3 和DeepResearch。巧合的是，Anthropic 也在同日宣布了其金融智能体的计划，这预示着金融投资领域正迅速成为顶级 AI 公司竞逐的下一个焦点。

从亚马逊发布 Kiro 智能体编程软件，到马斯克为 Grok 增加“同伴模式”以深化人机交流，再到 Manus 在日常任务自动化上的探索，智能体的应用市场已初显拥挤。在此背景下，OpenAI 与 Anthropic 不约而同地将目光投向金融行业，揭示了智能体竞赛的下一个方向。

· · ·

📢 AI 产品爆发，但你的痛点解决了吗？

2025 全球产品经理大会

8 月 15–16 日

北京·威斯汀酒店

互联网大厂、AI 创业公司、ToB/ToC 实战一线的产品人

12 大专题分享，洞察趋势、拆解路径、对话未来。

立即扫码领取大会PPT

抢占 AI 产品下一波红利

（文：AI科技大本营）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复