梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
4B小模型极限在哪里?
最新模型Jan-nano引起热议,它在智能体任务上超过671B的最新版DeepSeek-V3 0528,在SimpleQA基准上获得80.7分。

先来看一下它的实际表现,包括两个任务:
-
对研究某公司目前的扩张情况,该公司的扩张正威胁着另一家公司的市场份额,并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。
-
汇总今日财经突发新闻,聚焦令人震惊的消息。
总结一下,Jan-nano的能力包括:
-
在正确的提示词下,可以进行深度研究 -
从搜索结果中有效地获取相关信息 -
针对MCP协议优化,可无缝集成各种MCP服务器调用工具
再来看一下官方评估结果,与它同台竞技的不是闭源方案就是DeepSeek-v3这样的671B大型MoE模型。

目前Jan-nano取得最高分80.7%,并且作者透露下一个版本的目标是85%。

不过研究团队Menlo Research特别提醒大家,Jan-Nano只是在这一个指标上优于Deepseek-671B,并且在测试中使用了基于MCP的方法。
我们完全理解4B模型有其局限性,但看看它能走到多远总是很有趣的。
具体来说,Jano在Qwen3-4B上使用字节&清华开源的DAPO强化学习微调方法。

团队称将很快发布详细的技术报告,敬请期待。
谁是Menlo Research?
Menlo Research是一个专注于AI和机器人技术的开放研发实验室,其主要目标为构建机器人的”大脑”。
创始人为一对夫妻Daniel Ong与Nicole Zhu,Nicole Zhu在斯坦福读人机交互硕士期间休学创业,此前在谷歌做过高级工程师。

Menlo Research坚持用户拥有原则,产品都是开源的,设计为离线运行或自托管。

此前Menlo Research的核心产品是Jan,一个可以100%离线运行的开源AI助手应用。
Jan被定位为ChatGPT的替代品,曾在推出数月后,在没有风险投资支持的情况下超过百万次下载,

Jan的长远愿景是成为“自驱动计算机”,实现从用户操作计算机到计算机自主操作的转变,具体来说,规划中的能力包括。
-
将用户指令转化为直接行动 -
跨应用程序工作,无需手动切换 -
学习用户的特定工作模式 -
自主完成重复性任务
此外,Menlo Research还在新加坡Echelon展会上展出了一款人形机器人。
Jan-nano模型下载:
https://huggingface.co/Menlo/Jan-nano
Menlo Research:
https://menlo.ai
(文:量子位)