相信大家对Kimi已经不陌生了,它以一口气处理 20 万字、50 个文档的超能力,以及免费好用、没有广告的特点,迅速俘获了一大批粉丝。它现在可不止满足于文字了,还戴上眼镜,解锁了“视觉神探”新技能!全新发布的 Kimi 视觉思考模型 k1,让它能像夏洛克一样,从图片中抽丝剥茧,逐步推理。听说在数理化方面,它已经超越 OpenAI o1、GPT-4o 和 Claude 3.5 Sonnet,成为行业领先的存在!

k1 视觉思考模型已陆续上线最新版,找到在Kimi网页版左侧这个戴眼镜的kimi头像就是,手机版是下图这个,即可拍照或传图体验

那么,Kimi 的这项新技能究竟有多厉害呢?让我们先从大家最头疼的数理化开始说起
数理化学科的表现实测
数学
直接上难度,我在网上搜了一下2025年考研数一真题(2024年12月21日刚刚结束),就拿第17道题练练手,直接截图甩给Kimi



物理
物理学科对我们的抽象思维能力培养非常重要,但是物理是很多同学的拦路虎,借用一下马斯克对物理的看法,老马认为物理教给我们最重要的东西是第一性原理思维,这个很多人应该听过,马斯克有今天的成就靠的就是物理学的第一性原理思维
我们都知道登陆火星非常困难的,迄今为止只有美国和中国成功登陆,我很好奇Kimi是怎么理解这个物理问题的,继续甩图给Kimi,结合图片说说为什么登陆火星很困难


Kimi回答:火星着陆极为困难,因为这是一个涉及极端条件、精确计时、复杂技术和自主操作的多步骤过程,每一步都至关重要。我认为Kimi的回答基本上让我们了解了登陆火星这一复杂物理过程
化学
到化学了哈哈,化学一直是我的噩梦,高中化学每一道题都是我成功上岸的绊脚石,我上学时为什么没有Kimi?只能羡慕现在的同学,还是一样,我随手拍了一张化学题图片,看看Kimi的解答


Kimi解答:说实话看完我整个人都麻了(我真不会这些化学题),答案是硫酸亚铁溶液,怎么感觉比我的高中化学老师讲的还好?难道是因为我太菜了,各位不要看笑话哈
看完这些,你是不是对戴眼镜的 Kimi 刮目相看了?它不仅仅是学习上的好帮手,在生活工学娱乐中,它也能用它的“火眼金睛”为我们带来乐趣和实际帮助
生活工作娱乐场景实测
复杂图表理解
我经常要阅读各种AI的前沿论文,但是遇到论文中的复杂图表,不免头大,如果借助AI强大的图像理解推理能力,哪怕只给一个框架性的提示,也是很好的,可以大大节约时间,这里我选了一个我喜欢的个人博客文章的复杂图表,来测测Kimi


Kimi对这张图的解释:只能说大大超出我的预期,不仅有流程,还有深入讨论,最让我没想到的还有验证理解,戴上眼镜的Kimi果然不一般啊

提取信息,输出表格
表格最大的好处就是一目了然,我们在工作中经常要面对大量混乱的无序的信息,如果直接截图甩图给AI,输出有效信息,这个我相信你一定喜出望外,看看Kimi的提取信息,输出表格的能力
我的要求是提取这张图中的模型参数信息,输出表格

MBTI推测
好奇你的MBTI?赶紧让Kimi 给你测测,哈哈,不测不知道,一测吓一跳,感觉Kimi老师比我自己还懂我,我用的三个月我常听的音乐图片,让Kimi根据常听音乐推测我的MBTI


Kimi推测:先是分析我听得音乐类型,再由音乐类型匹配MBTI,再根据我的音乐风格偏好做出推测,最后印证,太精确!


减脂吗?计算一下卡路里
1月不减肥,2月徒伤悲,你吃的减脂餐到底能不能减脂,很简单拿起手机拍一下,把图片甩给Kimi,让Kimi计算一下卡路里,看看是否超标,自律遇见更好的自己,哈哈😁

Kimi逐步分析每样食品的热量,还根据不同的烹饪方法做了合理假设,最终得出结论

可以说,戴眼镜的 Kimi 已经不再是一个简单的 AI 助手,更像是一个拥有超强视觉感知能力,强大推理能力的朋友,陪伴我们学习,工作,生活和娱乐
写的最后:
戴眼镜的Kimi k1 视觉思考模型,真正意义上实现了端到端的图像理解和思考能力。模型可以直接处理用户输入的图像信息并进行思考得出答案,不需要借助外部的OCR或额外视觉模型进行信息处理,用户体验和效果都达到了新的高度
不懂的就随手拍一下,让戴眼镜的Kimi老师帮你看看,就会打开另一扇窗:一个灵感,或是解开一个死磕了很久的难题,也许就是你获得一次小成功的起手式
⭐
(文:AI寒武纪)