面壁智能线下首次公开完成数亿元融资,李大海:未来会让GPT-4o及更高水平模型上端|

为什么说面壁智能是中国大模型“6+2”格局里极具辨识度的代表?

作者|王艺

编辑|王博


“首先和大家分享一个好消息:面壁智能完成新一轮数亿元融资,我们将站在一个全新台阶上,提速以端侧AI为代表的高效大模型商业化布局为用户创造具体可感知的价值。”


今天上午,在2024甲子引力年终盛典上,面壁智能联合创始人、CEO李大海在线下首次公布了面壁智能的最新融资消息。


「甲子光年」了解到,本轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富投资基金联合领投,北京市人工智能产业投资基金与清科创投跟投,万甲资本担任本轮独家财务顾问。


面壁智能是以“高效”为第一性原理的大模型公司。端侧模型面壁小钢炮MiniCPM凭借以小博大、高效低成本的性能优势,接连在端侧模型领域带来了GPT-4V和ChatGPT时刻,不仅在多项基准测试中接连越级领先,还将无限长文本、超清OCR识图、实时视频理解等首次集成到端侧,创造多项纪录。自今年2月份发布以来,面壁小钢炮MiniCPM系列模型累计下载量突破300万,屡次登顶GitHub、HuggingFace大模型趋势榜单。


“模型肯定要卷,但是只卷模型是不够的,因为模型的迭代速度太快了。”李大海在2024甲子引力年终盛典上说,“我们希望用同等的参数做出更高性能、更低能耗、更快速度的模型,这些都意味着效率的提升。”


李大海透露,面壁智能会持续深耕端侧模型,“今年年初我们让GPT-3水平的模型上了端,9月份让GPT-3.5水平的模型上了端,未来会让GPT-4o及更高水平模型上端。


在大会现场,李大海还动情地介绍,今天上午他刚刚给公司内部发了全员信,“站在年尾,感慨颇多。这是我们推动高效大模型深度服务客户的一年,我为面壁同仁的小钢炮精神骄傲!走先人一步的路,打以少胜多的仗,这就是响当当的小钢炮精神!”


把更高效低成本的大模型,放到离用户最近的地方,面壁智能的这一步,走得很坚定。




1.“面壁定律”与模型迭代

脱胎于清华NLP实验室,2018年就发布了全球首个知识指导的预训练模型ERNIE,2020年成为悟道大模型的首发主力阵容,2022年成立OpenBMB开源社区,同年面壁智能开始公司化运作。面壁智能不仅是全国最早研发大模型的团队之一,更是国内首个提出“高效大模型”概念的厂商。


自OpenAI提出Scaling Law并用GPT-3证明了其在文本数据上的有效性以来,各家模型厂商就在卷参数量的道路上一去不复返,模型越做越大,涌现出了千亿、万亿甚至十万亿的模型。但越到后面,大家渐渐发现参数量更大,不代表模型效果更好。


在面壁智能看来,如果大模型作为实现AGI的关键路径,但成本却无比高昂,那意义也不大,所以要降低模型成本。对大模型来说,“效率”至关重要,只有在做好成本控制的基础上达到更好的效果,才能扩展大模型的应用边界。


该怎么提升大模型训练效率呢?


在2024年初的一篇论文《Predicting Emergent Abilities with Infinite Resolution Evaluation》中,面壁智能提出了解决思路:如果大模型还未训练出来时就能预测性能大约在什么水平,那么可以先通过小模型做实验、调参数,再按照相同的数据配比、参数调整等方法训练大模型。



通过此方法,面壁智能成功实现了用小十倍参数模型预测大十倍参数模型的性能,并且取得了不错的成绩。


旗舰端侧基座模型MiniCPM以2.4B的参数量,在性能上超越Mistral-7B、Llama2-13B乃至更大的全球知名模型;旗舰端侧多模态模型MiniCPM-V刷新了开源模型最佳OCR表现,部分能力比肩世界级多模态模型标杆Gemini-Pro与GPT-4V;今年5月发布的MiniCPM-Llama3-V 2.5,超越多模态巨无霸Gemini Pro 、GPT-4V实现了“以最小参数,撬动最强性能”的最佳平衡点。


小参数、高性能模型逐渐成为AI技术趋势,图片来源:面壁智能


由此,面壁智能提出了以知识密度为核心的“面壁定律”——大模型的知识密度每8个月提升一倍。其中,知识密度=模型能力 / 参与计算的模型参数。


面壁定律,图片来源:面壁智能


数据表明,相比GPT-3,参数规模小的多的MiniCPM2.4B具备同等性能, 整体知识密度提高了约86倍。


面壁高效大模型还在持续进化中。在今年的世界人工智能大会(WAIC 2024)上,面壁智能还发布了高效稀疏模型MiniCPM-S,和助力开发者打造SuperAPP的全栈式工坊MobileCPM。


MiniCPM-S 1.2B采用了高度稀疏架构,通过将激活函数替换为ReLU及通过带渐进约束的稀疏感知训练,巧妙地解决了此前主流大模型在稀疏激活上面临的困境,实现知识密度的“空前提升”——达到了同规模稠密模型MiniCPM 1.2B 的2.57倍,Mistral-7B的12.1倍。


而今年9月,面壁智能发布的MiniCPM 3.0更是再次挖掘了端侧模型的极致性能,仅靠4B参数,就在包括自然语言理解、知识、代码、数学等多项能力上超越了GPT-3.5,在Qwen2-7B、Phi-3.5、GLM4-9B、LLaMa3-8B等一众中外知名模型脱颖而出。


李大海今天在2024甲子引力年终盛典上介绍,目前面壁智能已将“面壁定律”升级成了“Densing Law”,大模型的知识密度从平均每8个月提升一倍,变成了平均每3.3个月提升一倍。


李大海认为,电力有能量密度,芯片有摩尔定律,大模型也有知识密度。


“今年年初我们让GPT-3水平的模型上了端,9月份让GPT-3.5水平的模型上了端,未来让GPT-4o及更高水平模型上端”李大海说。




2.All in 端侧AI

在这波AI浪潮中,面壁智能是国内少有选择All in端侧AI的头部大模型厂商。


面壁智能自成立以来,一直致力于大模型的“高效训练”。在探索Scaling Law的过程中,面壁智能发现了可以通过小模型预测大模型性能的技术路线Scaling Prediction。


基于高效Scaling Prediction的技术路线,面壁智能有两条产品技术线:一条是基座大模型,另一条是给大模型做端侧版本。这一方面可以提升大模型的效率,让每个参数发挥更好的效果;另一方面也能在与应用场景相匹配的成本下做出最好的模型。


“这两条产品线,其实是一条路,就是面壁通往AGI的道路。”此前在接受媒体采访时,面壁智能CTO曾国洋说。


「甲子光年」观察发现,面壁智能做端侧模型,是基于其高效训练的理念、技术普惠的目标、产品技术线的布局和市场需求等多方面因素共同作用的结果,而MiniCPM等一系列模型的成功也证明了面壁的技术实力和战略方向的合理性。


面壁智能的端侧模型有两个着力点:语言模型多模态模型。


其中端侧的多模态模型更重要不是“生成”而是“感知”,是和环境的深度互动。面壁智能发布的端侧最强多模态模型MiniCPM-V 2.6增加了实时视频理解、多图联合理解、多图ICL视觉类比等功能,首次在端侧实现了单图、多图、视频理解等多模态核心能力全面超越GPT-4V,单图理解越级比肩Gemini 1.5 Pro和GPT-4o mini。


“像iPad这样的设备,借助摄像头就能‘开眼看世界’。”李大海说。


为了推动端侧模型更好地融入端侧设备,面壁智能与联发科技、英特尔等芯片企业展开了深度合作,通过降低模型功耗的方式,做模型和芯片的深度适配。与芯片更好适配的端侧模型在AI Phone、AIPC、智能座舱、智能家居与具身机器人等领域发挥了重要作用,在今年的世界机器人大会上,「甲子光年」就注意到,面壁智能联手加速进化,实现了业内首个高效端侧模型在人形机器人上的应用。



此外,面壁智能还积极与行业下游合作,在主流消费电子和新型硬件上融入端侧AI,布局端云协同的未来范式。今年6月,面壁智能与华为云达成了正式合作,共同推进大模型端云协同解决方案的研发和部署;今年9月,面壁智能与长城汽车签署战略合作协议,表示将在大模型技术的研发与应用上展开深入合作,推动智慧出行与用户服务的发展。




3.推动高效大模型深度服务客户的一年

除了布局端侧AI,得益于在自然语言处理方面的技术渊源和优质行业数据的深厚积累,面壁团队还将大模型深度应用到法律、教育、金融等垂直领域,用技术赋能行业场景。


李大海在2024甲子引力年终盛典上给出的评价是:“这是我们推动高效大模型深度服务客户的一年。”


今年7月,面壁智能、人民法院出版社、深圳迪博共同助力深圳中院,正式启用了全国首个司法审判垂直领域大模型,该大模型全面覆盖立案、阅卷、庭审、文书制作等审判业务的85项流程能够精确诊断案情,充分尊重裁判者的自主决策权,确保技术进步不“越俎代庖”,让司法裁判始终由审判人员作出,解决了AI在司法领域的应用难题。


今年11月,面壁智能作为联合研发团队参与的千亿参数通用大模型“法信法律基座大模型”在最高法发布,训练语料是经过高质量专业标注的万亿字量级法律专业数据法信法律基座大模型定位为法律行业基座模型,既是一个为法治领域提供生成式人工智能底层能力的基座模型,也是一套为保障法律人工智能安全发展,配套安全治理机制,提供数据资源、算力资源、评测资源的服务体系。


“法信法律基座大模型”研发成果新闻发布会,图片来源:面壁智能


同样被赋能的还有金融场景。面壁智能与国内头部银行客户进行了深入合作,通过大模型为客户的“智能财富助理”产品提供强大的语言对话能力和逻辑推理能力,解答用户在金融理财等业务咨询中的专业问题。


“所有的领先,往深处都是认知的领先;任何商业竞争,归根结底都是效率的比拼。高效,不仅是我们企业运营的核心;在商业环境中,也意味着更快的响应速度、更低的成本、更高的产出和更好的客户满意度。”在新一轮融资的全员信中,李大海的表达很直接。


李大海在2024甲子引力年终盛典现场演讲


今年下半年,市场竞争愈发激烈,中国大模型的比拼也进入了新阶段。


但面壁智能显然走出了一条符合自己特点的道路,成为了中国大模型“6+2”格局里极具辨识度的代表。


“我们相信,人工智能的发展经过了几次起落,接下来肯定不会再落到地上了,”李大海说,“因为大模型带给行业的价值是实实在在的。”


(封面图及未标注来源图片来自2024甲子引力年终盛典)


(文:甲子光年)

欢迎分享

发表评论