
内容丨特工女巫
审核丨特工少女
2025 年,AI Agent 高歌猛进。从海外大厂如 OpenAI、Google、Grok 纷纷下场做 DeepResearch,到国内前段时间 Manus 一炮而红,Agent 呈现出更强的推理能力和更高的自主性特点,能代理人们完成任务,交付结果。
但要么由于功能付费不便宜,要么由于体验资源稀缺,国内大多数用户目前还是需要一款能轻松无门槛用起来的通用 Agent 产品。还好,智谱 AutoGLM 沉思,这不就来了!

摄于智谱 OpenDay 现场

智谱的 AutoGLM 大家已经不陌生了,可以根据用户一句话的指令,AI 自主帮用户操作手机,之前我们也有文章体验分析过。
这次的 AutoGLM 沉思,是智谱在 AI Agent 方面的重磅升级。AutoGLM 沉思,是一个能探究开放式问题,并根据模型推理分析的结果,执行操作的自主 Agent。它能够模拟人类的思维过程,完成从数据检索、内容分析、到生成和执行结果。

产品能力方面,尤其亮眼的两大核心点是推理能力和执行能力。基于智谱推理模型 GLM-Z1-Air 训练,融入 AutoGLM 的动手操作能力,AutoGLM 沉思会深思熟虑,还能动手做事。
面对用户的开放式深度问题,AutoGLM 沉思可自主思考解答步骤,规划任务,像人类一样自动操作和浏览网页(通过浏览器操作,以页面截图形式获取如知网、小红书、公众号、京东等优质但不对外开放 API 的网页信源,同时利用多模态模型对网页上的图文信息理解),最后生成研究报告或直接执行任务。
技术能力方面,所用到的模型都是智谱自研的纯国产大模型。AutoGLM 沉思用到的大模型,从基础模型 GLM-4-Air0414,到推理模型 GLM-Z1-Air,再到 AutoGLM,每个模型都是智谱团队的自研,并且据了解即将全部开源。AI Agent的核心是自主性,能够自主进行规划、推理、记忆、调用工具行动。
智谱做 Agent 就体现出技术优势了,他们端到端布局了行业第一梯队的全栈 Agent 技术,包括推理模型、多模态感知模型、工具调用模型等。

AutoGLM 沉思即日就发布上线到智谱清言桌面端(可通过官网下载),还是无需邀请码全民可立即就用起来的那种。
相比 OpenAI 的 Deep Research 200 美元/月的会员价格还只能提问 120 个问题,智谱的 AutoGLM 沉思则是免费不限量使用,可以说十分大方,真有技术普惠那味了👍
在 AutoGLM 沉思首页,看到官方封装了学术、攻略、金融、生活、创作这大场景。特工们也第一时间上手实测,给大家看看效果,也欢迎读者在评论区分享下你们觉得有意思的 case~
总结来说,AutoGLM 沉思适合的场景任务有这样 4 类共性特征:
-
搜索提炼场景:搜索调研海量网页
-
深度研究场景:撰写深度研究报告
-
网页浏览场景:操作浏览网页信源
-
网站操作场景:操作网站任务如邮箱、购物、视频等
以演唱会攻略推荐为例。
首先,特工女巫输入这样的简单提示词:“我在今年五一假期时,要从广州去佛山看华晨宇的演唱会,要求你根演唱会的时间、地点等因素,为我安排合理的出行行程,以及告诉我抢票攻略建议。你需要多看一看微博、小红书、公众号等相关度高的内容,尤其要注意华晨宇官方账号的信息”。
过程中可以看到:
AutoGLM 沉思,首先进行了推理分析,联网搜索,信息总结,然后自主规划需要浏览器操作,于是自己打开了 Chrome 浏览器,自动操作浏览微博、知乎、小红书等网页。

过程中除了登录,几乎不需要用户介入,AutoGLM 沉思在自己打开浏览器目标页面后,会首先理解当前页面内容,然后根据需要,能自主点击完成搜索、点击、筛选等操作。

更厉害的是,AutoGLM 还会基于大目标自己拆解多步骤子任务,根据之前步骤的已知结果自我反思,继续规划下一步行动,直到认为任务完成为止。
此外,在等待过程中,用户也可以把正在执行的浏览器窗口最小化,继续做自己其他的事情,解放双手奴役 AI 干活。

最后,AutoGLM 沉思在经历将近 15 分钟 20 步的推理、分析、执行后,给我输出了一份内容真实准确、丰富全面、逻辑清晰、格式美观的最终答案。
不仅有演唱会时间地点基本信息,还向我提供了抢票指南,交通、住宿建议,行程安排建议,甚至景点和美食推荐。
本女巫五一假期可以美美参考 AutoGLM 沉思的攻略冲演唱会了😊


此外,AutoGLM 沉思还能去 B 站搜索视频,浏览视频,知道怎么选优质视频,看了几个还要看几个,推理规划拆解任务分步执行,基于已完成任务的结果反思和调整接下来的行动,直到完成为止。
比如让它找 5 条优质的自由泳教学视频,然后总结提炼出可信可靠的自由泳进阶练习提升方法。


整体操作过程和结果让本女巫直呼牛逼。不过还有一些美中不足,比如不支持点赞等操作,在测试“进入小红书上特工少女这个账号主页,给最近十篇图文点赞,然后分析他们内容的选题方向和写作风格”时便失败了。
以及目前 AutoGLM 的 Browser Use 会存在我们之前提到的这个问题:“AI 在跟用户抢夺控制权,当你下达任务之后,只能在一旁欣赏 AI 的表演,如果误触,流程就可能被打断。”
虽然业界当前对 Agent 的概念还没有唯一共识,但我们可以抽象出一些标准的理解。AI Agent 具备自主性、适应性、交互性、功能性这四大特征。
-
自主性:更根据自身的知识和经验,独立做出决策和执行行动
-
适应性:能够学习和适应环境,不断提高自己的能力
-
交互性:能够与人类互动,提供信息和服务
-
功能性:可以在特定领域内执行特定的任务
自主 Agent 与 ChatBot 或 Workflow 最大的差异就是自主性和适应性。自主 Agent 由模型自己决策操作过程,能够通过连续、多步推理,实现模型自主规划,执行任务,并通过反思实现动态调整。在模型的 Intelligence 进一步升级后,未来自主 Agent 可能将不再需要现有的工作流编排。
AutoGLM 沉思是自主 Agent 的 “Preview 版本”。从技术角度,基础模型是智谱自研的推理模型 GLM-Z1-Air,这是一个能力比肩 DS R1 的模型,训练过程与 Deep Research 基于 o3 模型的训练过程相似。
从用户角度,AutoGLM 产品,也是首个 toC 免费不限量使用的拥有强反思能力的 Agent。从效果角度,目前 AutoGLM 沉思的平均思考步骤在 20 步以上,再加上结合浏览器进行深度信息检索、操作执行,拥有处理复杂问题的能力。
不论是大模型公司、AI 创业公司、还是成熟大厂,各家都在或激进或谨慎地跃跃欲试结合大模型将 AI Agent 应用落地。今年,我们持续看好和期待国内外出现更多更加智能和有用的 AI Agent。

(文:特工宇宙)