试用完 OpenAI 的新代理工具，以下是我们的发现

来源链接：https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found
发布时间：2025年1月23日

今天，OpenAI 发布了 Operator，这是一款 ChatGPT 的研究预览版，可以作为用户的代理工具完成重复性任务。例如，Operator 能自主帮你预订机票、安排餐厅、购买鲜花等。

它拥有自己的浏览器，用户可以实时观察它如何在网络上执行任务，并在需要时随时接管操作。与 ChatGPT 之前的网络浏览功能不同，Operator 旨在从头到尾完成任务，而无需中途过多用户输入。

本周，OpenAI 提前向 Every 提供了 Operator 的测试访问权限。以下是我们对其使用体验的详细报告。

Operator 的工作原理简介

Operator 的界面位于 operator.chatgpt.com，与传统的 ChatGPT 界面非常相似，但有一个显著区别：ChatGPT 通常会用“我能帮你做什么？”作为欢迎语，而 Operator 的问候语是：“我能帮你完成什么？”这种微妙的差异揭示了 Operator 更注重完成具体任务，而非作为通用聊天工具。

操作界面和建议任务

在主页下方，Operator 会显示它能够执行的一些任务示例，通常与 OpenAI 的合作伙伴网站相关。例如，它可能建议用户查找肯德里克·拉马尔（Kendrick Lamar）演唱会的四张门票，或寻找耗时少于30分钟、以鸡肉为主的晚餐食谱。

以下是界面的示例：

图片来源：OpenAI

通过输入例如“查找 Jamie XX 的演出安排以及每场门票价格”这样的请求，用户可以观察 Operator 在网络上搜索演出信息并浏览 StubHub 等网站，直到完成任务：

Operator 浏览示例

用户可随时接管操作

在执行任务过程中，用户可以随时接管远程浏览器。例如，输入用户名和密码，或者完成某些需要手动验证的操作。完成任务后，Operator 会跳转到付款页面并等待用户提供支付信息。

Operator 任务完成示例

当 Operator 能顺利工作时，它可以将通常需要 15 至 20 分钟的点击操作自动完成，为我们展示了未来与软件交互的新模式。

Operator 的亮点功能

自动保存和共享任务流程

Operator 完成任务后，会保存整个流程，并生成视频供用户观看和分享。这使得用户可以建立一个流程库，自动完成常见的重复性任务，如每周采购杂货或搜索符合偏好的航班信息。

然而，目前的 Operator 仍处于研究预览阶段，其表现并不完美。以下是我们测试时的优缺点分析。

深度测试发现

浏览功能的限制

Operator 使用的是 OpenAI 数据中心的浏览器，而不是用户的本地浏览器。这一设计使得用户可以随时随地使用 Operator，但也带来一些限制：

被部分网站屏蔽：例如 Reddit 禁止 AI 代理访问；OpenAI 也主动屏蔽了部分资源密集型网站（如 Figma）和竞争平台（如 YouTube）。
体验局限：某些任务可能因为无法访问特定站点而受阻。

受限制的浏览情况

以下是 Operator 被限制访问网站的另一个示例：

浏览受限情况

当 Operator 被限制时，感觉像被困在“玻璃笼”中：

受限示例

更适合作为“任务助手”，而非“研究助理”

Operator 专注于完成任务，而非深入分析。例如，当被要求阅读《战争与和平》第一章并总结人物心理时，它虽然能顺利找到书籍并阅读内容，但生成的总结过于概括，无法深入挖掘角色互动中体现的人性复杂性。

以下是生成的总结示例：

简要的总结示例

自动化能力强，但提示至关重要

Operator 能完成一些耗时较长的任务，但用户的提示质量会直接影响结果。例如，我们要求它总结“Spotify Wrapped”的发展历史，结果显示简单提示无法完成任务，但通过详细说明步骤（如使用 Google 高级搜索工具按年份过滤数据），它才能完成工作。

OpenAI 的消费者优先策略

虽然 Operator 只是一个研究预览，但它展现了 OpenAI 对于消费者产品的关注。这与其竞争对手（如只提供 API 的 Anthropic）形成了鲜明对比。Operator 的发布模式与 ChatGPT 相似：通过发布早期产品并快速迭代，推动技术的广泛应用。

尽管目前 Operator 存在局限性，但随着技术的迭代优化，它有潜力大幅减少用户日常任务的手动操作。

测试任务总结

以下是我们对 Operator 测试的一些具体任务和结果：

任务：购买演唱会门票

提示：查找 Jamie XX 在洛杉矶的下一场演出门票
结果：与合作伙伴网站（StubHub）配合成功，但非合作伙伴网站失败

购票任务示例

任务：安排家政服务

提示：找到能在明天为家庭提供一次性清洁的服务
结果：失败，因未考虑用户位置而推荐了不相关的服务

任务：获取最新 AI 新闻

提示：查找 AI 最新动态
结果：提供了简要摘要，内容有限

AI 新闻任务示例

任务：分析 Spotify Wrapped

提示：总结 Spotify Wrapped 的成功要素
结果：初步失败，但经过多次提示修改后完成任务

任务：预订 Uber

提示：查询当前从 USC 到洛杉矶国际机场的 UberX 价格
结果：成功

Uber 任务示例

任务：书籍总结

提示：阅读《战争与和平》的第一章并分析其中对人性的观察
结果：部分成功，但深度分析不足

书籍总结任务示例

作者：

Dan Shipper：Every 联合创始人兼 CEO
Alex Duffy：Every 咨询负责人兼特约作者

（文：AGI Hunt）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31