终于等到免费且开源的DeepResearch!智谱发布AutoGLM沉思,操纵电脑搞科研太玄幻了


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 新智元
大家好,我是小瑶,你们的 AI 前排吃瓜 + 深度解读博主,今天人在中关村论坛——

还记得之前眼馋 OpenAI 那个死贵死贵的 Deep Research 吗?一个月 200 美刀,还得翻山越岭才能用上,简直是科研党和调研控的“会呼吸的痛”。

但是!人在论坛现场发现,智谱 AI,搞了个事情,他们发布了一个全新的 Agent 产品——AutoGLM 沉思。

划重点:

  • 免费
  • 开源
  • Deep Research
  • 还能直接操纵电脑干活

光 DeepResearch 功能免费开放这一手,就把原来少数人“氪金”体验的“魔法”,直接拉到了我们每个普通人面前。

而这次的主角,却不是单纯的 DeepResearch 技术平权,而是智谱把 DeepResearch 能力与电脑操纵能力做了深度绑定,发布了一个称为「AutoGLM 沉思」的 Agent 型产品。

AutoGLM 沉思:全球首个集深度研究和操作执行于一体的 Agent

简单来说,AutoGLM 沉思,是智谱最新推出的一个“超级智能体”(AI Agent)。与传统的 ChatBot 范式不同,AutoGLM 沉思不仅能聊、能搜、能写,重点是能“一边思考,一边干”,比如一边思考,一边触发“点击网页 URL”阅读网页内容这种浏览器动作。

在聊 AutoGLM 沉思之前,我们先看下在智谱网页端(chatglm.cn)就能体验到的「沉思」功能,玩过 DeepResearch 的会对这个功能比较容易理解。

比如:

调研生成式 AI 对未来知识生产模式的颠覆性影响,要求对比传统学术研究与 AI 辅助研究的范式差异,选取至少 5 个典型领域(如医学、法学、文学、经济学、艺术学等)进行深度研究案例分析,字数要求一万字以上

搁以前,我们要用传统搜索或 AI 搜索引擎查 N 多资料,看 N 篇论文,整理 N 久。然后用 ChatBot 去整理素材、梳理大纲、润色文稿等,流程非常繁琐。

而在智谱网页端,勾选「沉思」功能后,ChatGLM 会像一个真正的研究员一样:

  1. 深度思考(沉思): 自主地把这个复杂问题拆解成一步步可执行的任务。
  2. 大量搜索: 从互联网上搜索出大量相关的素材。
  3. 分析整合: 把找到的素材进行分析、提炼、总结。
  4. 生成报告: 最后,输出一份逻辑清晰、条理分明、甚至带好引用来源的长篇报告给你。

由于这个过程非常长,我这里录了个实测视频——

如今,这个对标 OpenAI DeepResearch 的「沉思」功能,已经全量上线智谱网页端和客户端,并免费开放了。

智谱网页端地址:
https://chatglm.cn

值得强调的是,这个沉思功能,还跟 AutoGLM 深度融合了。成为了能在浏览器中触发浏览器操作的 Agent,称为「AutoGLM 沉思」。

但注意,由于浏览器的固有权限限制,这个 AutoGLM 沉思,只能在智谱清言电脑客户端中使用,网页端是不行的。

比如我们看这个进阶 Case:

帮我比较两款产品:我在考虑购买 Macbook Air 和 小米笔记本

需求:- 我经常出差,需要电池续航长、重量轻的笔记本,也关注性能和售后服务。请从规格参数、电池续航测试、用户评价等方面比较 A 和 B,列出各自的优缺点,并根据我的需求给出推荐。

看下 AutoGLM 沉思的执行过程:

可以看到,AutoGLM 沉思过程中,有大量的网页阅读操作,这些便是来自 AutoGLM 的浏览器点击动作。最终,生成的研究报告会结合在沉思过程中阅读的大量网页内容,进行信息整合。这样出来的研报,会比无 AutoGLM 加持的沉思功能更为详尽全面、充满细节。

从上图,可以比较清晰的理解「AutoGLM 沉思」的差异性,其具备获取更丰富、更深度的信源的能力,未来甚至能进行更深入的网页操作。这种动手能力,是其与市面上其他“Deep Research”类产品(包括 OpenAI 的)最大的区别。

「AutoGLM 沉思」已在智谱清言 PC 客户端上线,但注意,须配合 Chrome 浏览器才能成功启用。

不仅能干活,还能自己“搞钱”了?

除此之外,发布会上,智谱还秀了一波更“玄幻”的操作——

好家伙,AI 可以自动接单写稿了。

智谱现场演示了 AutoGLM 沉思如何“接活儿”。

AI 自己打开一个征稿网站,搜索符合要求的任务,然后根据要求“唰唰唰”写出一篇文章,最后,还自己自动发送到了指定的邮箱。全程自动化!这以后是不是写手都要跟 AI 抢饭碗了?(瑟瑟发抖但又觉得好酷!)

还有这个——

14 天,智谱「沉思」孵化出 5000 粉小红书博主,还接到了商单!

智谱团队透露,他们 14 天前,用「沉思」功能(注意,还只是纯研究版,没加后面 AutoGLM 的操作能力呢),搞了个小红书知识分享账号。就让 AI 去搜各种话题,比如“怎么选咖啡壶”、“化妆品成分对比”等等,AI 能搜几百个信源,总结出干货满满的笔记。

结果,两周时间,这个号涨了 3000 多粉丝,而且已经接到了商业合作

姐妹们,这意味着什么?意味着哪怕你是个某个领域的“小白”,只要会提问,AI 就能帮你变成“信息博主”、“知识 kol”。

这波搞钱的新思路属实让我觉得有点赛博朋克了。

智谱全栈自研:免费 + 开源

按道理,这种能力比较硬核的模型 + 工程框架,各大厂的调性普遍是藏着掖着,而智谱则宣布——

Agentic 相关的模型和技术,包括基座模型 GLM-4-Air0414、推理模型 GLM-Z1-Air、沉思模型 Z1-Rumination、智能体框架,都将在 4 月 14 日正式开源。

这里需要提一嘴,AutoGLM 沉思背后的核心技术,都是智谱自家娃:

  1. 推理模型 GLM-Z1-Air: 负责“思考、规划、反思”的推理模型,性能直接对标 DeepSeek-R1,但速度快了接近 8 倍,价格却只有其 1/30,还可以在消费级显卡上跑,简直是平民法拉利。
  2. 沉思模型 GLM-Z1-Rumination: 在 Z1-Air 基础上,通过强化学习“特训”,专门提升结合工具进行长程推理的能力。
  3. 基座模型 GLM-4-Air-0414: 负责执行的底座模型,擅长代码、工具调用等智能体任务。
  4. AutoGLM 核心框架:用于搭建智能体应用的核心工程框架。

这些模型和技术,会在接下来的两周内,陆续上线智谱 AI 开放平台,附传送门:
https://bigmodel.cn

智谱的野心:从模型到 Agent,再到生态

从小瑶我的观察来看,智谱在 Agent 这条赛道上,布局早,走得快,而且目标非常清晰。

他们把 Agent 的发展分了几个阶段:

  1. 工具使用 & 代码编写: 很早就在智谱清言里上了 Function Call。
  2. 智能体编排: 也是很早就上线了 GLMs(智能体广场)。
  3. 设备操控 & 自主智能体: 从能控制设备的 AutoGLM,到这次发布的能深度思考 + 操作的 AutoGLM 沉思。

可以说,智谱几乎是引领了国内 Agent 技术发展的每一个关键节点。

而未来,智谱的战略也很明确:

  • C 端(用户侧): 继续探索“自主智能体”,让 AI 越来越像一个真正能干活的伙伴,通往 AGI 的下一站。
  • B 端(企业侧): 要做 Agentic 平台和生态的玩家。用低成本、能商业化的 Agent 技术,赋能千行百业。他们希望作为模型厂商,帮助合作伙伴做出成功的行业大模型应用(比如金融、政务等),也帮助城市实现智能化升级。甚至,他们还在帮助“一带一路”国家构建自己的大模型和智能体技术。

当然了,站在目前的时间节点,我实测后发现,Agent 能力也还有诸多不足,比如——

  • 可靠性与稳定性: 长任务链的执行成功率、对异常情况的处理能力仍需提升。
  • 成本问题: 复杂 Agent 任务可能消耗大量计算资源和 Token。
  • 安全性与可控性: 如何防止 Agent 被滥用?如何确保其行为符合预期且可控?权限管理是难题。

一些碎碎念

讲真,每次看到这样的技术突破,我内心都超澎湃的!

从最早的聊天机器人,到能画画、写代码,再到今天,AI 已经能像一个“数字人”一样,拥有自己的“思考”(沉思),还能伸出“手”(AutoGLM)去操作这个数字世界,甚至开始展现出一定的自主性去完成任务、创造价值。

智谱 AutoGLM 沉思,特别是它的免费、开源以及“边想边干”的能力,真的让我感觉,那个“人人都有 AI 助理”的时代,又近了一大步。不再仅仅是“玩具”或“辅助”,它正在变成一个可以深度参与我们工作、学习、甚至生活的强大“伙伴”。

虽然现在 AutoGLM 沉思还只是 Preview 版本,但我已经迫不及待想看到它未来更强大的样子了!比如,能直接在手机上帮我处理各种 APP 任务,能帮我管理更复杂的日程和项目,甚至能帮你打理“数字分身”?(畅想ing…)

不多说了,我要赶紧亲自体验一下这个“玄幻”的 AutoGLM 沉思了!


(文:机器学习算法与自然语言处理)

欢迎分享

发表评论