试用完 OpenAI 的新代理工具,以下是我们的发现

来源链接:https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found
发布时间:2025年1月23日


今天,OpenAI 发布了 Operator,这是一款 ChatGPT 的研究预览版,可以作为用户的代理工具完成重复性任务。例如,Operator 能自主帮你预订机票、安排餐厅、购买鲜花等。

它拥有自己的浏览器,用户可以实时观察它如何在网络上执行任务,并在需要时随时接管操作。与 ChatGPT 之前的网络浏览功能不同,Operator 旨在从头到尾完成任务,而无需中途过多用户输入。

本周,OpenAI 提前向 Every 提供了 Operator 的测试访问权限。以下是我们对其使用体验的详细报告。


Operator 的工作原理简介

Operator 的界面位于 operator.chatgpt.com,与传统的 ChatGPT 界面非常相似,但有一个显著区别:ChatGPT 通常会用“我能帮你做什么?”作为欢迎语,而 Operator 的问候语是:“我能帮你完成什么?”这种微妙的差异揭示了 Operator 更注重完成具体任务,而非作为通用聊天工具。

操作界面和建议任务

在主页下方,Operator 会显示它能够执行的一些任务示例,通常与 OpenAI 的合作伙伴网站相关。例如,它可能建议用户查找肯德里克·拉马尔(Kendrick Lamar)演唱会的四张门票,或寻找耗时少于30分钟、以鸡肉为主的晚餐食谱。

以下是界面的示例:

图片来源:OpenAI

通过输入例如“查找 Jamie XX 的演出安排以及每场门票价格”这样的请求,用户可以观察 Operator 在网络上搜索演出信息并浏览 StubHub 等网站,直到完成任务:

Operator 浏览示例

用户可随时接管操作

在执行任务过程中,用户可以随时接管远程浏览器。例如,输入用户名和密码,或者完成某些需要手动验证的操作。完成任务后,Operator 会跳转到付款页面并等待用户提供支付信息。

Operator 任务完成示例

当 Operator 能顺利工作时,它可以将通常需要 15 至 20 分钟的点击操作自动完成,为我们展示了未来与软件交互的新模式。


Operator 的亮点功能

自动保存和共享任务流程

Operator 完成任务后,会保存整个流程,并生成视频供用户观看和分享。这使得用户可以建立一个流程库,自动完成常见的重复性任务,如每周采购杂货或搜索符合偏好的航班信息。

然而,目前的 Operator 仍处于研究预览阶段,其表现并不完美。以下是我们测试时的优缺点分析。


深度测试发现

浏览功能的限制

Operator 使用的是 OpenAI 数据中心的浏览器,而不是用户的本地浏览器。这一设计使得用户可以随时随地使用 Operator,但也带来一些限制:

  • 被部分网站屏蔽:例如 Reddit 禁止 AI 代理访问;OpenAI 也主动屏蔽了部分资源密集型网站(如 Figma)和竞争平台(如 YouTube)。
  • 体验局限:某些任务可能因为无法访问特定站点而受阻。

受限制的浏览情况

以下是 Operator 被限制访问网站的另一个示例:

浏览受限情况

当 Operator 被限制时,感觉像被困在“玻璃笼”中:

受限示例

更适合作为“任务助手”,而非“研究助理”

Operator 专注于完成任务,而非深入分析。例如,当被要求阅读《战争与和平》第一章并总结人物心理时,它虽然能顺利找到书籍并阅读内容,但生成的总结过于概括,无法深入挖掘角色互动中体现的人性复杂性。

以下是生成的总结示例:

简要的总结示例

自动化能力强,但提示至关重要

Operator 能完成一些耗时较长的任务,但用户的提示质量会直接影响结果。例如,我们要求它总结“Spotify Wrapped”的发展历史,结果显示简单提示无法完成任务,但通过详细说明步骤(如使用 Google 高级搜索工具按年份过滤数据),它才能完成工作。


OpenAI 的消费者优先策略

虽然 Operator 只是一个研究预览,但它展现了 OpenAI 对于消费者产品的关注。这与其竞争对手(如只提供 API 的 Anthropic)形成了鲜明对比。Operator 的发布模式与 ChatGPT 相似:通过发布早期产品并快速迭代,推动技术的广泛应用。

尽管目前 Operator 存在局限性,但随着技术的迭代优化,它有潜力大幅减少用户日常任务的手动操作。


测试任务总结

以下是我们对 Operator 测试的一些具体任务和结果:

任务:购买演唱会门票

  • 提示:查找 Jamie XX 在洛杉矶的下一场演出门票
  • 结果:与合作伙伴网站(StubHub)配合成功,但非合作伙伴网站失败

购票任务示例

任务:安排家政服务

  • 提示:找到能在明天为家庭提供一次性清洁的服务
  • 结果:失败,因未考虑用户位置而推荐了不相关的服务

任务:获取最新 AI 新闻

  • 提示:查找 AI 最新动态
  • 结果:提供了简要摘要,内容有限

AI 新闻任务示例

任务:分析 Spotify Wrapped

  • 提示:总结 Spotify Wrapped 的成功要素
  • 结果:初步失败,但经过多次提示修改后完成任务

任务:预订 Uber

  • 提示:查询当前从 USC 到洛杉矶国际机场的 UberX 价格
  • 结果:成功

Uber 任务示例

任务:书籍总结

  • 提示:阅读《战争与和平》的第一章并分析其中对人性的观察
  • 结果:部分成功,但深度分析不足

书籍总结任务示例

作者:

  • Dan Shipper:Every 联合创始人兼 CEO
  • Alex Duffy:Every 咨询负责人兼特约作者

(文:AGI Hunt)

欢迎分享

发表评论