不是,谁教你这么用Kimi的啊


当Kimi戴上眼镜
三周前,给大家介绍了Kimi数学版
最近使用Kimi,发现那个戴眼镜的同学变了。VI从线条变成了立体,还有一脸蓝色表情,看起来就很睿智。


那时候的Kimi数学版,主要是文生文,你用文字提问题,它给你解步骤,理答案。
当时,只支持LaTeX格式(一种标准的数学公式排版)的问题,而非LaTeX格式、几何问题、图形问题、手写问题则难以理解,也难以回答。
我问Kimi的老师,什么时候能够支持拍图解答,他们说“很快了”。
没想到,三周后,支持视觉理解和CoT思维链(Chain of Thought)的K1模型这就来了。
Ps.特别提一下,三周前上线的Kimi数学版是基于K0-math模型,是K0(líng),不是KO[əʊ],不是o1模型的大写O。
在深度体验了几天后,我总结了下:
Kimi视觉思考模型,就像一个超级敏锐的AI神探,可以对图片信息进行抽丝剥茧,逐步推理。

不论是客观的数理化还是主观的生活化,都能够轻松应对,既有深度又有细节。

实测10+Case
怎么体验的?
今天,我们不看基准,那玩意既可以很标准,也可以很不标准;也不看demo,demo大多是精调的结果,普通人很难复现。
唯有整活,才能看出模型的泛化能力(指模型应对新的、未见过的数据的表现能力),也是我们每一位使用者能够亲自感知到的东西。
1)问:唱跳+Rap+篮球=?


把这张图丢给Kimi,求解。

ahh,你小子可以的,一上来就直奔主题是吧。
2)问:我刚从成都东站下车,按照这个攻略图,我去宽窄巷子要多久?坐哪号线地铁?
答:大约32分钟(考虑了步行)。


让我们用地图软件来验证。确实如此,也是推荐2号线,在成都东站上车,人民公园下车,大约30分钟。


我们再问一个复杂一点的。
问:我有6个小时,锦里、春熙路、建设路和东郊记忆这4个地方都想去,帮我规划下行程,我从双流机场出发。

然后,Kimi就进行了详细的思考和推理。


最终结果,我让Kimi整理成了表,更加直观。


这张图,我也送给大家,欢迎各位来成都玩~


3)最近计划去九寨沟,在网上看到这样一张图,想让Kimi帮我整理一份攻略。


问:这是一份九寨沟手绘地图,请参照此图帮我整理一份详细的九寨沟游玩攻略(含午饭时间),共9个小时。


不错,居然连手写字也能够识别。
这也是K1模型的一大亮点,能够准确识别出有“噪声”的图片,比如照片灰暗、图像模糊、多题拍摄、手写字、倾斜的拍摄角度等。


4)前段时间,去成都软件园拍下了这张图,考考Kimi。


问:猜猜这是成都的哪里?


答对,成都高新区天府四街。就是……这答案,令人破防。
这个地方在晚上确实会有一些加班的员工。”哈哈哈,字节的人哭了。
5)问:预测下比亚迪明天的股价?

答:280元≤比亚迪明天的收盘价≤290 元。Kimi没有给出具体股价数字,只列出了区间值,个人认为有90%的概率预测对,对应股价波动在-1.7%~1.7%之间。


虽没有给出具体的数字,但其思考过程值得一看。
“这些均线接近当前价格,表明短期内股价可能趋于稳定。”
“当前股价略高于移动平均线,这可能是一个积极信号。”
“如果市场条件保持稳定,没有重大负面消息,比亚迪明天的收盘价可能会在280至290元之间。但请记住,这只是一个基于当前信息的估计,实际结果可能会有所不同。”
不过,还是要严正声明。以上文字仅供AI测试所用,不代表任何投资建议。
6)问:仔细、认真地理解这张图,帮我写一段生成此图的提示词。


让AI理解AI,还得是你,哈哈哈哈。
7)复杂的图表,也能识别。比如AI模型在诺奖数据集上的表现图。


问:你看看这张图讲了啥?


Kimi得出结论:GPT-4在区分诺贝尔奖论文与其他论文的原创性方面表现最佳,而Mixtral模型在原创性评分与引用次数关联方面表现更佳。
今后看外网论文,再也不愁了。
8)最近,不是好几个computer use产品嘛。测测Kimi,看能不能识别网页,识别自己。
问:这是什么?


准确识别出这是Kimi网站,提供智能助手服务,有输入框、快捷选项和话题推荐等功能。
继续追问:如何才能使用“Kimi视觉思考版”?


这连串回答是我没有想到的,它居然自己去尝试访问kimi.moonshot.cn网站,来回答这个问题。

那我觉得,后面Kimi推出自己的computer use产品,应该也很快了。这视觉识别能力,不开发这个产品,不白糟蹋了嘛。

写在最后
综合体验了下来,K1模型给我总体感受是:
对于答案唯一的物理化领域,K1有逻辑,做题对;对于丰富多彩的生活化领域,K1能推理,想得深。
还真是,每一个像素,都在深入思考。而且,还会完整展示思维链,不仅可以看到结果,也能看到过程。
K1如此出色,源于其技术的突破。传统的视觉推理模型,通常都要借助OCR技术或其他视觉模型,先将图像转换为文本,再进行推理,这一过程势必会导致信息丢失。
而K1是基于端到端打造的视觉推理模型,先通过预训练得到基础模型,再在基础模型上进行强化学习后训练,将视觉识别和推理能力进行无缝融合。在确保信息不丢失的前提下,还提升了推理能力。
以生产力起家的Kimi,今年扩大到生活化、娱乐化场景,如今又在学习场景拔得头筹。

体验路径:1)APP:对话框输入@符号,选择Kimi视觉思考版。2)PC:官网侧边栏,点那个戴眼镜的同学。

不得不说,Kimi这个六边形战士真是越来越厉害了。
优秀!

(文:沃垠AI)

欢迎分享

发表评论