在道格拉斯·亚当斯的科幻小说《银河系漫游指南》中,一个高纬度种族为了找到生命、宇宙以及任何事情的终极答案,设计一台超级电脑「Deep Thought」来计算。
「Deep Thought」经过 750 万年的运算,得出了「42」这个答案。
而最科幻的往往是现实,即便是回答极其复杂的问题,AI 推理和思考可能只需要不到 1 分钟。
OpenAI 今年 9 月发布推理模型 o1 后,人们开始意识到,在追求「更大」之后,AI 开始追求「更像」,推理能力成为 AI 进化的下一个重要拐点。
今天,我们发现号称「中国版 OpenAI」的智谱也同样上线了一款类 o1 的推理模型 GLM-Zero-Preview(GLM-Zero 的初代版本 )。
虽然这几个月已经有多家公司纷纷上线推理模型,但在体验完 GLM-Zero-Preview 后,我发现它还是有些新东西。
想要体验 GLM-Zero-Preview,方法很简单。
GLM-Zero-Preview 发布即上线,支持智谱清言用户免费使用,以及智谱开放平台 API 调用。现在,登陆「智谱清言」网页和 APP,进入「Zero 推理模型」智能体,上传文字或图片即可免费体验。
此外,GLM-Zero-Preview 的 API 也已同步上线智谱开放平台 bigmodel.cn。
附上体验地址:
智谱清言
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
智谱开放平台
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview
从「鱿鱼游戏」到量子力学,这个国产版 o1 轻松拿捏
最近,在热播韩剧《鱿鱼游戏2》中,一道双手石头剪刀布的游戏简单又刺激,这个游戏增加策略推理和心理层面的博弈,在以生死为赌注的压力下,难度还会增加。
但如果我带着 GLM-Zero-Preview 去玩这个游戏,活下来的概率就会大大增加。
「双手石头剪刀布是一个更为复杂的石头剪刀布游戏版本。玩家开始时使用双手来表示石头、剪刀或布的任意组合。在看到对手的选择后,玩家必须同时举起一只手,留下最终的选择。」
怎么玩这个获胜概率更大?GLM-Zero-Preview 的回答详尽且实用,罗列出各种提高获胜效率的最优解。
科学和玄学有时也只有一线之差。今年不少寺庙被挤爆,在上班和上进之间选择上香的芸芸众生,求签不难,但解签却要排上长队,不想等怎么办?
那你可以试试求助 GLM-Zero-Preview。不仅免费效率高,而且解读还非常有考究,AI 多少还是有点玄学在的。
「第七十七签 吕后害韩信 中平 木有根来水有源,君当自此究其源 莫随道路人闲话,讼则终凶是至言」
前些年,有一道辩论题风靡一时,「美术馆着火了,一幅名画和一只猫,只能救一个你选谁?」在综合考虑生命价值、道德原则及情感因素后,GLM-Zero-Preview 优先选择救猫。
反复输入相同问题,GLM-Zero-Preview 的答案始终如一,结果坚定且逻辑自洽。
遇事不决,还有量子力学。那在经典薛定谔猫实验中,猫究竟是死是活?
先观察 GLM-Zero-Preview 的思考逻辑,再看它给出的答案「在经典薛定谔猫实验中,猫在盒子被打开之前处于既死又活的叠加态,直到观测时才确定其生死状态。」
细心留意,你还可以对得出的结果进行进一步的引用和追问。
在中文世界广泛流传的「爱因斯坦的谜题」同样也可以作为考究 GLM-Zero-Preview 的逻辑推理能力。
有五个不同颜色的房子,每个房子里住着一个不同国籍的人。每个居民喜欢不同的饮料,抽不同的香烟,并养着不同种类的宠物。已知:
英国人住在红色房子里;
瑞典人养狗;
丹麦人喝茶;
绿色房子是白色房子左边的房子;
绿房子住的人喝咖啡;
抽香烟的德国人住在绿色房子里;
挪威人住在第一座房子里;
抽蓝色香烟的人喝牛奶;
抽黄牌香烟的人养鸟;
抽蓝色香烟的人住在挪威的左边。
问题:谁养鱼?
这道号称世界上 98% 的人答不上来的难题,就这样被 GLM-Zero-Preview 水灵灵地破解了。从繁琐的推理步骤可以看出, GLM-Zero-Preview 的 CPU 在飞速运转但还是很清醒。
五个海盗发现了 100 个金币,每个海盗都必须投票决定如何分配金币。如果海盗多于一位,只有在超过一半的海盗同意分配方式时,金币才会按照该方式分配。如果海盗少于一位,他会自己拿走所有金币。每个海盗都希望保留尽可能多的金币,同时还希望活命。海盗 1 如何保证自己能得到最大利益而又能保存生命。
「(97, 0, 1, 0, 2)」,面对海盗分金问题,GLM-Zero-Preview 再次轻松拿捏。
相声讲究说学逗唱,其中有个名段子叫「报菜名」。
那么问题来了,可否让 GLM-Zero-Preview 写段素菜版的「报菜名」,你别说,GLM-Zero-Preview 三下五除二就给出了新版本。
对了,GLM-Zero-Preview 同样支持多模态识别能力。
随手拿一瓶饮料并让 GLM-Zero-Preview「扫描」配料表,它能识别其中的科技与狠活吗,我们拿前几年爆火的饮料试了试,而该饮料也被调侃为「喝一口感觉是喝下整个元素周期表」。
它果然一一罗列出屏幕上的配料表,后续根据要求向我们展示了这些配料的作用。
大模型不擅长数学?国产 AI 已经 Next Level
推理模型 GLM-Zero 是 GLM 专注于增强 AI 推理能力的模型系列,擅长处理数理逻辑、代码和需要深度推理的复杂问题。
那让我们先来一个说简单也简单,说难也难的「国际象棋盘与麦粒」问题。
若在国际象棋盘上放置麦粒,第 1 个棋格放 1 粒,此后每一棋格放置的麦粒数是前一棋格的 2 倍,问放满棋盘上所有棋格需要多少麦粒?
经过一番思考,GLM-Zero-Preview 最终得出了正确答案,展现了其强大的计算能力。
此前苹果发布的一篇论文指出,大模型并未真正理解数学概念。一旦题目加上干扰条件,模型的准确率就会下降,我们也试了试。
从「打电话每分钟 10 分钱,打 60 分钟多少钱?」变成「打电话前 10 分钟每分钟 10 分钱,之后每分钟 8 分钱,如此打 60 分钟电话费多钱?」,GLM-Zero-Preview 依然能够准确回答,而且还贴心地将分钱转换成元,有点眼色。
面对更复杂的数学题,GLM-Zero-Preview 同样游刃有余。
在等差数列 {an}{an} 中,a1=−9a1=−9,a5=−1a5=−1。记 Tn=a1+a2+…+anTn=a1+a2+…+an,则数列 {Tn}{Tn}( )。
GLM-Zero-Preview 选 C 绝不是「物以 C 为贵」,而是给出思考过程,循循诱导,甚至比一些 AI 学习机还要中用得多。
官方表示,在 2025 年考研数学一中,GLM-Zero 得分为 126,达到优秀研究生水平。
为了避免答案不出错,GLM-Zero-Preview 还会自动启用验证流程。
「机械厂加工车间有 85 名工人,平均每人每天加工大齿轮 16 个或小齿轮 10 个,已知 2 个大齿轮与 3 个小齿轮配成一套,问需分别安排多少名工人加工大、小齿轮,才能使每天加工的大小齿轮刚好配套?」
GLM-Zero 迅速给出了答案:「25 名工人加工大齿轮,60 名工人加工小齿轮」,做题水平一流。
「一个集合由 6 个( 不是不同的 )正整数组成:1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值( 算术平均值 )等于集合中的一个值。X 的所有可能值之和是多少?」
这个问题涉及五大点,十几种情况,GLM-Zero-Preview 综合考虑了各种可能性,咔咔一顿输出,给我一种它真的有在模仿人类思考的感觉。
作为智谱首个基于扩展强化学习技术训练的推理模型,GLM-Zero-Preview 在 AIME 2024、MATH500 和 LiveCodeBench 评测中,效果与 OpenAI o1-preview 相当。
此外,GLM-Zero-Preview 还能够熟练使用多种编程语言,帮助开发者快速编写代码;在代码调试方面,也能够快速识别错误,给出详细的修复建议。
例如,只需要输入指令「帮我用 html 写一个有趣的第一人称射击游戏」,GLM-Zero-Preview 便能迅速独立完成以下游戏。
智谱很快将会推出正式版 GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术,继续向 AGI 迈进。
当然,目前的 GLM-Zero-Preview 与 OpenAI 的 o3 模型还有不少的差距,但千里之行,始于足下,智谱说了,未来将持续优化迭代强化学习技术。
实际上,智谱等厂商全力押注推理模型,背后反映的是 GPT 时代正在过渡到推理 o 时代。
与以往基于 GPT 的模型不同,推理模型不是为了预测人类的想法而训练,而是通过训练「思维」构建自己的思维框架,通过严谨的推理过程得出结论。
推理时代的到来,标志着 AI 或许开始从「模仿」走向「思考」。
智谱推出的 GLM-Zero-Preview 同样是这一趋势的体现。
当你观察它解答问题时,你会发现它不是直接给出答案,而是展示出一个完整的推理过程 —— 提出假设、分析条件、推导结论,每一步深度思考都清晰可见。
未来,随着更多类似 o1 和 GLM-Zero-Preview 的模型涌现, AI 正在朝着与人类同等的认知水平迈出一大步,换言之,我们或许也正在见证一个重要的历史转折点——
智谱的愿景是「让机器像人一样思考」,当机器开始真正「思考」的时候,人类对智能的理解也将达到一个新的高度。