邮箱|zhouyixiao@pingwest.com
最近,大模型厂商们都在卯足了劲儿往视觉的方向使力,OpenAI上线了Sora,Google向开发者开放Gemini 2.0 Flash的多模态API,还演示了Project Astra在视觉理解等方面的能力。
Kimi也整了个“新活”:视觉思考模型k1。根据介绍,这是一个在数理化领域全面对标OpenAl o1、GPT-4o以及 Claude 3.5 Sonnet的视觉思考模型。
一个月前,Kimi推出了数学推理模型k0-math,但它有个小小的遗憾:只认识LaTeX格式的文本,无法处理需要看图的几何题,新的k1视觉思考模型,解锁了包括几何题在内更加全面的数学能力。
说得简单点儿,k0-math会算题,k1则更全能,不仅具备k0的数学能力,还能看懂各种图片,能够从图片里一步步推理出答案。在基础教育各阶段的几何和图形题专项基准能力测试中,k1-preview成绩打平或超过了 OpenAI的o1模型。
说到视觉推理,前段时间有个有意思的研究,语言模型已经可以写诗写小说了,但是依旧会对9.11和9.9比大小这类的问题犯难,同样的问题也出现在视觉模型中,它们能完美理解自然景色或人物照片,却无法进行很好的推理。
德国达姆施塔特工业大学的研究团队发现,即便是号称最强的AI视觉模型,在处理一些看起来很简单的视觉推理任务时,也是一脸懵圈,会出现明显失误。别说什么高深的任务了,连识别垂直线条、判断螺旋方向这种基础操作都可能出现困难。在他们的测试中,GPT-4o在100个视觉谜题里才对了21个,成绩略显尴尬。
硅星人随机测试了论文当中的一题,Kimi视觉思考版虽然得出了正确答案,但是过程中存在幻觉,数错了圈外圆圈的数量。
不难看出,AI的视觉推理一直是业界的一个难题,这块儿还真有点短板明显的意思,有时候智商在线,有时候却在一些看起来很基础的问题上翻车。
那么这次的k1在视觉推理上的具体表现如何?我们再来看几个真实案例。
#01
GeoGuessr最强外挂?
如果你玩过GeoGuessr这款地理版“你画我猜”,就知道这游戏有多烧脑——给你一张随机街景图,让你猜这是地球上的哪个角落。高手能从路牌、植被、建筑风格里找线索,菜鸟可能连大洲都猜不准(没错说的就是我)。
AI能不能拿来当GeoGuessr外挂?我们在社交媒体上随机选择一张用户拍摄的普通的城市秋景图,没有任何文字信息,也没有地标性建筑。
Kimi视觉思考版从细节入手分析,最后得出可能是上海石库门。距离实际位置距离误差大约在4公里以内,表现不错。不过在推理过程中还是出现了幻觉,它把右下角的小红书水印识别为了“上海”。
当我们把同样的照片丢给豆包时,豆包把图里的元素都看得挺清楚,但没有猜具体位置是哪儿。
在进行追问之后,豆包搜索了一番,似乎是想找到类似的图片,但仍然给出了错误的答案。
ChatGPT的表现稍微好一些,猜中了上海,但并没有给出更准确的答案。
#02
k1是怎么做到的?
Kimi视觉思考版的能力是如何实现的?Kimi官方也介绍了相关的技术架构。
大模型的技术范式正在发生变化,基于强化学习技术的新一代模型引入了过程奖励机制,通过对每一步推理过程打分,激励模型生成更详细的推理步骤,形成高质量的思维链CoT(Chain of Thought),从而能够挑战更复杂的任务。
这类似一个“奖励机制”——就像训练宠物一样,每当k1把推理过程说得清清楚楚,系统就会给它发“小饼干”。久而久之,它就养成了事事讲究来龙去脉的好习惯。
还记得上学时老师总说“不要只写结果,要把过程写出来”吗?k1就是这样,每一步推理都会告诉你它在想什么。比如看到那张上海街景图,它会一步步分析:这红屋顶的风格…这树的品种…街道布局有点眼熟…就像在实况转播破案过程。
这种能力的背后是端到端的视觉思考模型。过去的推理模型主要基于文本数据训练。即使是处理图像,也需要先通过OCR或其他视觉模型转换成文本,这个过程会损失信息。而k1作为原生的端到端视觉思考模型,将视觉能力和推理能力有机结合,可以直接理解图片信息并进行深度推理。
也就是说,k1把“看图”和“动脑”这两件事结合在了一起。传统AI看图片就像隔着千里打电话——先把图片转成文字描述,再开始推理,中间难免要“掉包”不少细节。
实测下来,在一些棘手场景(比如图片糊得跟马赛克似的,或者一张图里塞了好几道题),确实更靠谱了,我们接着看案例。
#03
拍题更不容易翻车了
学生党免不了要和公式和图形打交道。教材和作业本里少不了“文字+公式+图表”的组合拳。而现实中,遇到不会的题目,大家也经常想着拍个照或者截个图发给AI求解。
但这看似简单的“拍照求助”往往成了一道送命题——有的AI直接表示“对不起,我只认字”;有的则是“已读乱回”,靠OCR转换,结果公式还给你识别错。
光线不行、手写乱七八糟、图拍得糊成一片?在模拟真实拍题环境的测试中,k1的正确率甚至超过了OpenAI和Anthropic的模型。
最离谱的是它居然能认出草书——连很多中国人都认不明白的字体,它也能一个个给你扒拉明白。
我们用草书在线生成器生成了一张图片,然后分别发给了Kimi视觉思考版、豆包以及ChatGPT。
Kimi视觉思考版正确识别出了文字,但它在经过一番分析之后认为这是行书而不是草书。
豆包、ChatGPT均出现识别错误:
#04
结语
近期AI领域呈现出一个明显的技术路线转向,从OpenAI推出o系列模型开始,强化学习逐渐成为行业焦点。这一趋势其实可以追溯到更早期,Anthropic的Claude-Sonnet在从3.0迭代到3.5版本时,通过采用强化学习路线,在代码和数学能力方面取得了显著提升。在这个背景下,Kimi选择了把o1作为对标,走强化学习路线,着重提升模型的推理体验,这与当前国内主流模型厂商的策略似乎形成了对比。如果预训练已经逐渐成为瓶颈,考虑到o1模型所处的发展阶段,现阶段投入强化学习可能是一条更具性价比的技术路线。
o1类的方向,相信国内的各个模型厂商都在做,不过目前智谱、豆包、Minimax、元宝等产品都在更多强调多模态能力,包括电话、图片生成、音乐,以及最近密集更新的视频生成功能等等。
Kimi的k0-math和K1都特别强调了在教育场景中的数学能力和“识题”能力。从用户层面看,这些能力在教育应用场景中有实用价值,毕竟学生群体是Kimi重要的基本盘用户。所以,一方面在市场投放上保持激进,另一方面则将产品研发资源集中投入到核心功能上。没有全面对标OpenAI,但先把对标o1这件事做了,有点“好钢用在刀刃上”的意思?
未来还有啥好玩的?Kimi表示,视觉推理只是k1的第一步,未来还会解锁更多推理能力。视觉推理之后,下一步会是实时视频推理吗?
(文:硅星GenAI)