GPT-4o级开源模型来了！MiniCPM-o：多语种情感控制的实时对话、仅8B、华人团队

一个仅有8B参数量的全能模型力战GPT-4、Gemini 1.5 Pro！

华人团队打造的MiniCPM-o 2.6多模态大模型刚刚发布，就在多项基准测试中展现出了惊人实力！

视觉能力上，在OpenCompass评测中平均得分达到70.2，支持1344×1344高分辨率图像处理，而且仅需其他模型25%的视觉tokens就能完成任务。

语音方面，支持实时双语语音识别，在ASR/STT任务上甚至超越了GPT-4o实时识别的表现。

最厉害的是，它还支持30多种语言，真正做到了「小而全」！

VB Srivastav(@reach_vb) 兴奋地分享了这个消息：

MiniCPM-o 2.6是一个8B的多模态LLM，在视觉（OpenCompass平均得分70.2，1.8M像素 – 1344 x 1344）、语音（双语实时，在ASR/STT上超越GPT-4o实时）方面表现优异，使用75%更少的视觉tokens，支持30+种语言。

模型许可有变

一开始，VB误以为这是一个Apache 2.0许可的模型，引发了不小的讨论。

Allen Zhou(@zhoujinjing09) 立即指出了这个错误：

模型权重并不是apache 2.0许可。

随后，Yossi(@elkriefy) 详细解释了许可情况：

这没有改变。代码是Apache许可，权重需要获得许可批准。

事实上，MiniCPM-o的许可政策是这样的：

Janek Mann(@janekm) 对此表示乐观：

免费商用限制在日活100万用户/5000个实例以下，需要他们批准。还不错，我已经提交申请了，看看结果如何。

Victor(@victor_explore) 直言不讳地表示：

这简直是一场悄然革命！

一个仅有8B参数的模型能在如此多的任务上挑战甚至超越GPT-4、Gemini 1.5 Pro这样的顶级模型，这绝对是一个重大突破。

这次MiniCPM-o 2.6的发布，不仅展示了小模型的潜力，也为商业应用提供了更多可能性。

它用实力证明：参数量小，一样可以很强大！

（文：AGI Hunt）