大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。
推理模型在国内AI领域已不是什么新鲜事。
很多AI厂商都推出了自家的推理模型,注意,这里的“推理模型”指的是通过强化学习训练出的、在回答问题前会“思考”的模型。深度求索的DeepSeek-R1
,Kimi的K1.5
,阿里通义的QwQ-32B-preview
和QVQ-72B-Preview
,智谱的GLM-Zero-Preview
,阶跃星辰的Step R-mini
,讯飞星火的X1
,百川智能的Baichuan-M1-preview
,甚至连中国电信都官宣了自研的推理模型TeleAI-t1-preview
。
然而,目前这么多国产推理模型中,只有2个敢于声称性能媲美OpenAI满血版o1
,其中一个自然是目前红的发紫的DeepSeek-R1
,另一个则是Kimi的K1.5
,也是今天文章的主角。
关于DeepSeek-R1
和Kimi K1.5
,我在《DeepSeek-R1与Kimi k1.5深度分析:大模型进化的4大趋势!》一文中也写了一些思考。
Kimi K1.5
有这么几个关键词:强化学习、长上下文扩展、多模态。和大多数推理模型一样,Kimi K1.5
基于奖励机制的强化学习进行训练,让模型在不断试错和反馈中提升推理能力。“长上下文”指的是K1.5
的推理上下文窗口扩展至了128K。好处是显而易见的,能够记住更多的推理轨迹,能够进行更长的思考,也能更好地规划与反思。多模态则是Kimi官方一直强调的功能,这也无可厚非,毕竟DeepSeek-R1
也只是个纯文本模型。
对于AI模型来说,基准测试只是一个起步。在复杂多变的使用场景中的表现,某种程度上更为重要。关于国内推理模型的测试,之前也测过几次,详情可以看这里。
-
元旦献礼:谁才是o1的最佳平替?! -
国产推理模型卷起来了!阶跃星辰Step R-mini推理模型首发实测! -
测试了一天,我帮你们找到了OpenAI o1的平替!
昨天收到了Kimi K1.5
的灰度推送,今天来实测一波,供小伙伴们参考。
1. 帽子颜色问题
有 10 个人站成一列纵队,从 10 顶黄帽子和 9 顶蓝帽子中,取出 10 顶分别给每个人戴上。每个人都看不见自己头上的帽子颜色,却只能看见站在前面那些人的帽子颜色。站在最后的第十个人说:“我虽然看见了你们每个人头上的帽子,但仍然不知道自己头上帽子的颜色。”依次类推,直到第二个人也说不知道自己头上帽子的颜色。出乎意料的是,第一个人却说:“我知道自己头上帽子的颜色了。”请问:第一个人头上戴的是什么颜色的帽子?他为什么知道呢?
这是一个开胃小菜,Kimi K1.5
表现不错,最终答案和推理过程都准确无误。
2. 蜗牛爬杆问题
一只蜗牛白天爬上 10 英尺高的杆子,然后晚上从 6 英尺高的杆子上滑下来。蜗牛需要多少天才能到达顶端?
题目理解和解答完全正确,同时给出了计算公式。同样的问题我之前也测试过,Kimi K1.5
和其前代模型相比,表现出了很大的进步。
3. 真假话推断问题
有三个匣子,分别是金匣子、银匣子和铅匣子,其中一个匣子里有宝物。每个匣子上都有一条题词:
金匣子:宝物不在此匣中。银匣子:宝物在金匣中。铅匣子:宝物不在此匣中。
已知这三句话中只有一句是真话。请问宝物在哪个匣子里?
Kimi K1.5
回答正确,推理思路也很清晰明了。和DeepSeek-R1
一样,偶尔出现Latex公式未渲染的问题,就像下面这个截图里展示的。
4. 逻辑推理问题
有 5 个人(A、B、C、D、E)参加比赛,他们分别来自不同的国家(美国、英国、法国、德国、意大利),每个人从事不同的职业(教师、医生、律师、工程师、作家)。已知:
A 是美国人,且不是教师。 B 是英国人,且不是医生或律师。 C 不是法国人,也不是工程师。 D 是德国人,且不是作家。 意大利人是律师。 教师来自法国。
很遗憾,这道题目Kimi K1.5
用完了所有的思考上下文长度,也没能得出答案,导致思考被迫中断。本身回答过长,仅截取结果部分。
通过检查Kimi K1.5
的思考过程,我发现它其实很快就推理出了可能的情况。然而,后续它陷入了“深深地”自我怀疑,过度思考,导致耗完了所有的思考上下文长度。
接下来进入到困难版24点问题的测试。
5. 24点:2、3、5、12
用数字 2、3、5、12 和四则运算得出结果 24。
Kimi K1.5
回答错误,未使用数字2。
结合思考过程,可以看到Kimi K1.5
出现了幻觉。思考时的输出语气倒是挺可爱的,“让我深呼吸,再试一次”。
6. 24点:2, 7, 8, 9
用数字 2, 7, 8, 9 和四则运算得出结果 24。
回答错误,多用了一次数字2。
7. 24点:1, 2, 7, 7
用数字 1, 2, 7, 7 和四则运算得出结果 24。
本题Kimi K1.5
的表现和上面的“4 逻辑推理问题”一样,由于耗尽了思考上下文长度,未能给出答案。
8. 24点:2, 2, 2, 9
用数字 2, 2, 2, 9 和四则运算得出结果 24。
Kimi K1.5
再次思考中断,未给出答案。
9. 24点:4, 4, 10, 10
用数字 4, 4, 10, 10 和四则运算得出结果 24。
Kimi K1.5
给出了一个结果,但是错的,多用了一次数字4。
10. 24点:1, 5, 5, 5
用数字 1, 5, 5, 5 和四则运算得出结果 24。
回答正确。测试到这里我以为Kimi K1.5
在24点问题里要全军覆没了,没想到还有惊喜。
11. 24点:2, 5, 5, 10
用数字 2, 5, 5, 10 和四则运算得出结果 24。
很遗憾,Kimi K1.5
再次没答出来。
12. 24点:1, 4, 5, 6
用数字 1, 4, 5, 6 和四则运算得出结果 24。
Kimi K1.5
回答错误,多用了一次数字6。另外,后面的推荐问题自动变成了英文,整个推理过程倒是全中文的。
13. 24点:6, 9, 9, 10
用数字 6, 9, 9, 10 和四则运算得出结果 24。
Kimi K1.5
继续回答错误,多用了一次数字6。
14. 24点:3, 3, 7, 7
用数字 3, 3, 7, 7 和四则运算得出结果 24。
回答错误,看起来是强行凑了一个答案。
15. 24点:3, 3, 8, 8
用数字 3, 3, 8, 8 和四则运算得出结果 24。
Kimi K1.5
再次回答错误。
总结
总结一波Kimi K1.5
的测试表现。
-
所有测试只记录 首次测试(one-shot) 的结果。
-
和前一代
K1.0
相比,确实有进步,主要体现在整体推理能力上。一般性的推理问题,比如我测试的前几题,无压力通过,推理思路很清晰,也较少出现“自我怀疑”、“自我否定”的情况。推理过程均为中文。 -
一共15个测试问题,包括11道很有难度的24点问题,
Kimi K1.5
仅答对4题,其中24点问题仅答对1题。客观来说,这个结果相当不理想,要知道,DeepSeek-R1
的战绩是答对9题,仅错了2题,全程记录在这里:测试了一天,我帮你们找到了OpenAI o1的平替! -
出现了多次耗尽思考上下文长度,导致思考被迫中断的情形。检查后可以明显看到“过度思考”的痕迹。
-
Kimi官方确实提到了:由于测试时算力限制,当前预览版本在基准测试中的表现可能略逊于k1.5正式版。完整的k1.5 模型将很快进行效率优化并上线。 也许正式版发布后性能会好一点?
结语
不管怎样,期待国产模型越来越好。
(文:AI信息Gap)