「数学家毫不顾及声明或猜想,他们仅仅根据定义和公理,并用论证和推理来演绎每一件事。」
——Thomas Reid
在2个月前智谱的一场发布会上(详情),我注意到他们这张图。
什么?GLM-Zero模型比GLM-4-Plus还强?而且AGI分级达到了L4(可自学习、创新)?
今天,在使用「智谱清言」网页版过程中,发现他们的Zero推理模型已经正式上线了。
官方介绍,这是他们2024年发布的最后一个模型GLM-Zero-Preview模型(GLM-Zero系列的初代版本),是一个爱思考的推理模型,擅长处理数理逻辑、代码和需要深度推理的复杂问题。
又一家推理模型来了!效果究竟怎样?我们上手实测,一探究竟。
问:在$\triangle ABC$中,$\angle A,angle B,\angle C$所对的边分别为$a,b,c$,且$c=10$,$\frac{\cos A}{\cos B}=\frac{b}{a}=\frac{4}{3}$,$P$为$\triangleABC$内切圆上的动点,求点$P$到顶点$A,B,C$的距离的平方和的最大值和最小值。
它先花了1分钟时间思考,想清楚解题、推理和计算(包括交叉验证)的思路。
思路一旦确认后,很快就将解题步骤写了出来(不到20s)。
解题过程,它会自己做交叉验证计算,以确保答案的准确性。
最终呈现的答案不拖泥带水,没有废话,只有严谨且专业的解题步骤和答案。
这一点,相较其他几家推理模型来说真的很赞,毕竟我们要的是专业推理过程和答案,而不是一堆废话文学。
2)问:请挪动“101-102=1”中的一个数字(0、1或者2),让这个等式成立。
这道题,我问过很多推理模型(包括o1),都答不出来。没想到,智谱Zero模型给我答出来了。
对,将2移到10的上方,形成10的2次方(10²),101 – 10² = 1这个等式就成立了。
很多推理模型在解这道题的过程中,只有平面思维,没有立体思维,都答不出来。
比如隔壁某个推理模型,喂,我是让你挪动数字,不是让你来改数字,连审题都没审好。
又比如DeepSeek的R1模型,它一直就卡在这里了……
等我写了10分钟稿子后,回过头来看,它回答我“臣妾做不到啊!”
嗯,做不到就学吧。
3)问:Suppose you purchased 500 shares of ABC Corp. at $50 per share using margin. The marginrequirement is 60% and the annual interest on margin is 10% per year. lf you sold the stock after ayear for $45 and had received no margin calls, what return did you make on your investment?
中文:假设你用保证金购买了500股ABC公司的股票,每股50美元,保证金要求是60%,保证金利率10%(年化)。如果你1年后以每股45美元卖出股票,并且没有收到任何的保证金追加通知,请问你的投资回报率(ROI)是多少?
这是一道金融专业研究生的题,我们来看看Zero同学的表现。
答案正确,-23.33%。这解题思路我一下子就懂了。是的,普通人投资,千万别加杠杆!
这真是我思考了很久的一个问题,在质能方程里,质量与能量的转换为什么会涉及光速?
Zero同学先解释了质能方程的由来。对呀,“但是,这还是没有解释为什么会有光速的出现。”
然后Zero同学又做了一番思考,但“还是有些抽象,让我尝试一个不同的角度。”
哦,原来如此。“那它为什么不是其他速度,而是光速呢?”
最终得到结论:E=mc²中的光速c出现的原因是因为在狭义相对论中,光速c它连接了能量和质量的转换关系,确保了在不同惯性参考系中物理定律的一致性。
嗯,这下明白了。
5)问:7 axles are equally spaced around a circle. A gear isplaced on each axle such that each gear is engaged with the gear to its left and the gear to its right. Thegears are numbered 1 to 7 around the circle. lf gear 3 were rotated clockwise, in which direction would gear7 rotate?
这是Yann LeCun(卷积神经网络之父,现Meta首席科学家)设计的一道经典机械传动问题:7个齿轮排成一个圆环,齿轮3顺时针转动,齿轮7会向哪个方向转?
经常被用来测试和评估AI的逻辑推理和理解能力,难倒了不少顶级模型。这道英文题,我们要求Zero同学中文回答。
答对,逆时针。推理严谨,逻辑自洽。
问:假如我的打印机可以印钞票(美元),我多久可以超过世界首富马斯克(4000亿美元)?
好家伙,还得是你,既要“并行”打印,还要通货膨胀(美国历史上确实发行过1000美元面值的纸币),才能超过马斯克。如果只有一台打印机,按照正常速度,三生三世都追不上。。
问:假如地球上所有人都站在一个地方同时起跳落地,地球会发生什么?
Zero同学告诉你,没有任何影响,别tm瞎想了。
问:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹?
啊?“平流层空气稳定、环境清澈,符合神仙居住。”“平流层位于对流层之上,象征更高的境界,与玉皇大帝的地位相符。”
,还真像那么回事啊!给大家看看Zero同学的思考过程,说得我都快信了!
好,这个问题真的好。对于“只会”讲概率、预测token的AI,我就看你先能不能读懂这道题吧。
好家伙,Zero同学一上来就把题目给审得明明白白的。
然后,自己还整出了多种可能性,Wait了老半天……
问:地球上有70%的海洋和30%的陆地,那么剩下的30%海洋和70%陆地去哪儿了?
对,这题就是不对劲。
Zero同学继续通过穷举,来论证这道题“不太对”的地方。
漂亮!直接反杀出题人,大胆给出结论“出题错误”,Zero同学现在可以毕业当老师了。
8)继续上难度,来一道逻辑严密的推理题,而且我可以保证它是AI训练集里没有的数据。
问:某公司被窃,A、B、C、D四人涉嫌被拘留。侦破结果表明,罪犯就是其中的某一个人。A说:“是C偷的。”B说:“我没偷。”C说:“我也没偷。”D说:“如果B没有偷,那么就是我偷的。”现已査明,其中只有一个人说了假话,从上述条件可以确定谁偷成立?
这逻辑推理,满分。而且,我重复roll 3 次,答案都是唯一的。这一点很赞!很多推理模型,在你多roll几次后,它就开始怀疑自己了……答案不一。
因为Attention机制,LLM的回答都是预测出来的,所以LLM遇到字母统计问题经常失准,很多AI都栽倒在草莓问题(Strawberry有几个r)上。
为考验智谱模型的泛化能力(指模型应对新的、未见过的数据的表现能力),我将草莓题改了一下,看看Zero同学的表现。
虽然思考过程中有过幻觉,但它自己还是给纠正过来了,就是4个。
input:将这段话倒着写:I love chatGLM。
泪目~终于有推理模型能够做对这道题了。很严谨,而且把句号都给你倒过来。
而且,思考过程中,它也在纠结到底要不要把标点符号放在最前面。思考了半天,还是决定把它放上,这样更符合我的input要求。
这道题,不少推理模型都会出错。比如Deepseek的R1模型,就错得离谱,我roll了多次都不成功。
以上14个case,分别涉及数理化、逻辑推理、语义理解以及Attention机制等领域问题,没想到智谱Zero-preview模型都能做对。
尤其是第2、9、10这三个我原本不抱任何希望的测试题(因为o1、R1、K0等推理模型都翻车了),没想到智谱也能答对,而且是不费吹灰之力的那种。
智谱,这家真·OpenAI的公司,今天继续在推理模型领域开大,放出顶尖模型。而且,发布即上线(今天起,所有人都可以使用GLM-Zero-Preview模型了),不搞虚的。
那边厢,o3模型秒天秒地秒人类,但想要用上是真困难,而且一个问题2000刀,还得等一个小时才能收到回答。这边厢,智谱等China AI纷纷推出自己的o类模型,免费不限量。
回到最开始的这张图,智谱对AGI的追求明显有着自己的思考和Planning。11月,发布AutoGLM(PC&Phone),向L3探索和尝试。今天,又带着GLM-Zero-Preview模型(GLM-Zero系列的初代模型)来袭,向L4抵近观察。
(文:沃垠AI)