Kimi又上新!抢先实测视觉思考模型k1,甚至比o1更聪明

机器之心原创

机器之心编辑部

用强化学习,改变大模型技术范式。

国产大模型,正在引领 AI 技术新方向。

今天上午,月之暗面 Kimi 正式发布了视觉思考模型 k1,并已经上线了最新版的网页版以及安卓和 iOS APP。用户只需要在对话框中输入 @,然后选择「Kimi 视觉思考版」即可开始自己的 AI 视觉推理之旅。这是继上个月 k0-math 发布之后,Kimi 在推理模型上跨出的又一大步。

它是 Kimi 的首个视觉思考模型,在 k0-math 的基础上,k1 的推理能力不仅大大提升,还突破了数学题的范围,进入了更广阔的天地。

据介绍,k1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

此外,k1 的图像理解能力还可以解决之前 kimi 数学推理模型 k0-math 无法解决的许多几何图形问题。在基础教育各阶段的几何和图形题专项基准能力测试中,k1-preview 成绩打平或超过了 OpenAl 的 o1 模型。

除了推理能力大幅提升,k1 的强大视觉能力也值得称道。它可以识别各种真实的拍题场景,处理各种复杂的状况,比如照片图像不清晰、多题一起拍、手写字迹干扰,甚至纯手写的题目。

更重要的是,k1 的强大推理能力与视觉能力还以一种端到端的方式组合到了一起,这意味着我们可以直接理解用户输入的图片信息并进行深度推理,而不像之前的多阶段方法那样容易出现信息丢失的问题。

这种视觉能力和推理能力的端到端有机结合范式带来了显著的收益,让 k1 在真实应用场景中的性能相比于 OpenAl 和 Anthropic 的视觉模型有了大幅提升:在仿真环境中的初级和高级的数学、物理、化学题目上,k1 的最低正确度分数(38.7 / 高级物理)也显著高于 OpenAl 和 Anthropic 的视觉模型的最高分数(32.0 / 高级化学)。

此外,k1 还展现出了其它一些涌现能力,包括古代文献分析、梗图理解、基于照片推断地点等等。这些涌现能力大大提升了 k1 在日常生活中的实用性。

k1 的分数表现着实不错,实际表现如何呢?下面我们直接略过官方示例,亲自动手检验一下 k1 的真实世界能力。

从做题到梗图理解:

k1 将强大视觉推理带入日常生活

现在,我们在最新版手机 APP 或网页版 Kimi+ 页面上找到「Kimi 视觉思考版」,即可拍照或传图体验。

Round1: 数学题

我们在网上找到了一个手写的高中数学题来检验 Kimi k1 的视觉和数学推理能力。


图源:YouTube 题中说题

龙飞凤舞的手写题目让 k1 「费了些功夫」,不过最终还是得到了正确答案:

有意思的是,k1 在解答这个数学题的过程中还展现出了一定的反思能力。

Round2: 物理题

我们又找了一道高一物理题。正确答案选 C。

k1 不仅可以用正确的方式完成任务,还完整展示了推理思维链 CoT,让我们不只看到答题结果,也能完整看到模型思索答案的全过程。

Round3:辅助学习化学

测了数学和物理题,化学自然也不能错过。这一次我们不暗示任何背景信息,直接给出图示,看看 k1 的表现如何。


结果可以说是有点惊喜了。


k1 不仅很快分析指出这是一个化学反应的图示,而且还详细地说明了该装置的具体实验目的以及图片中各种器皿和化学物质的作用。而且对于我们的进一步追问:「如果将稀盐酸换成稀硫酸会发生什么?」k1 也给出了超出预期的解答 —— 它不仅说明了反应过程和化学方程式,还指出了生成的硫酸钙可能阻碍反应充分完成的问题及相关原因。


我们还进行一些稀奇古怪的测试。比如让它识别不熟悉的瓜果蔬菜、解读看不懂的梗图以及分析古代文献等。

Round4: 不熟悉的水果

下图展示的奇葩水果名为刺角瓜,又被称为非洲角瓜、火参果等。

把它「喂」给 k1 进行识别。k1 很快就判断出这是非洲角瓜,但又经过一番反思,推翻之前的答案,最终猜出是火参果。

火参果和非洲角瓜本是同一种水果的不同称呼,因此我们继续提问:火参果是非洲角瓜吗?

这次,k1 经过 6 步推理和验证,终于给出正确答案。


Round5: 看不懂的梗图

当初苹果推出 iPhone16 时,网友拿这张梗图来嘲讽苹果创新「挤牙膏」,iPhone16 和 iPhone15 几乎没啥太大的区别。

k1 揣摩了这张梗图背后的各种幽默元素,比如讽刺那些总是追求最新产品的人,即使这些新产品并不总是有显著的改进;每年新产品发布时的代际差异;调侃人们对于品牌和型号的过度关注等。

对于微妙的谐音和双关语梗,k1 也能相当出色地把握。

k1 准确地理解了这张图背后多层趣味,比如通常推崇简朴的僧人在喝与现代性密切关联的咖啡所形成的反差感、咖啡因来自咖啡果以及佛教因果观的微妙联系。

Round6:古代文献

此外,Kimi 官方还展示了一个非常有趣的涌现能力,即能够识别和分析古老的科学手稿。官方的示例中,k1 成功分析出了一份出自伽利略之手的手稿。我们在这里找了一张《天工开物》中的图片,再次检验了它的这个能力。

此外,我们还让其做了进一步的原理解析。

实测下来,我们发现,k1 的整体表现确实超出了我们的预期。另外,如果明确指示 k1「一步步地」执行分析或推理,k1 往往能够发挥自己的更大实力。感兴趣的用户在实际使用时可不要忘记这个小技巧。

   大模型的下个方向:

强化学习 Scaling

当前的 AI 领域中,有关大模型「Scaling Laws 终结」的观点正在兴起。上周五,OpenAI 前首席科学家 Ilya Sutskever 又喊出「预训练即将终结,互联网中的数据已被利用殆尽」,引发了人们的关注和思考。

大模型的未来应该走哪个方向?现在或许已经到了不得不做抉择的分叉口。

在月之暗面看来,规模的扩展是支撑 AI 技术在过去几年里发展的重要因素,但 Scaling 并不只意味着模型的体量,现阶段应该寻找新的有效扩展方向。

月之暗面选择的方向是基于强化学习来扩展。如果说大模型基本的预测下一 token 方式具有一定的局限性,只基于静态数据集无法探索较复杂的任务,那么加入强化学习的预测则可以在思考过程中生成更多数据,并实现思考能力的提升。

从模型训练的角度看,k1 视觉思考模型的训练分为两个阶段:先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。在强化学习规模化(scaling)上取得的突破,是 k1 取得行业领先成绩的关键原因。

在数学这样的场景中,新形态的 AI 模型可以通过不断试错验证「积累经验」,在不用和外界交互的情况下锻炼思考能力。就像人类在遇到难题时,先分析问题、探索不同的解决方案、尝试各种方案、反思,不断改进策略的方式一样,基于强化学习技术的新一代模型,通过激励模型生成更详细的推理步骤,可以形成高质量的思维链 CoT,显著提升了解决更复杂、更难任务的成功率。

基于强化学习的「思考模型」,未来或许还能给我们带来更加强大的交互体验。

© 

(文:机器之心)

欢迎分享

发表评论