年底基座大模型轮番炸场,谁是“多模态之王”?|

多模态语音、视觉理解及生成火力全开。

作者|赵健

上个月刚拿到B轮融资的阶跃星辰,2025年开年就开足了马力,带着最新发布的大模型来炸场了!


虽然没有开发布会,但阶跃星辰或许是从OpenAI发布会那里学到的灵感,从上周四到今天接连几天连续发布6款新模型,涵盖语言、语音、推理、多模态理解、视频生成等多个类别。


不同大模型公司往往有一个独特的标签,比如长文本、Agent、虚拟角色等,而阶跃星辰最大的特色无疑是一直在领跑行业的“多模态”能力。


在这一系列轰炸式发布中,阶跃星辰最值得关注的更新是其融合了语音、文本、视觉三种模态的Step-1o系列模型,刚升级就在LMSYS和OpenCompass最新榜单上拿下双料国产大模型第一。该系列的上一个版本Step-1V,同样曾霸榜LMSYS多模态榜单;全新发布的推理模型Step R-mini,并未止步于对文本推理的探索,已经融入多模态场景,在视觉推理上取得阶段性成果。视频生成模型也推出了Step-Video V2版本,在大幅物理运动合理性、空间感知、人物刻画细腻度等方面效果亮眼。


自出道起,阶跃的多模态模型就因为智能水平领跑行业、接入门槛低,俘获了大量AI应用开发者。阶跃很早就明确了多模态理解生成一体化的技术路线。过去一年,Step系列多模态模型多次在国内外权威评测上位列中国多模态第一,是名副其实的多模态之王。2025年,这个领先身位还在继续。




1.谁还在坚持基座大模型?

2023年,基座大模型还是AI创业公司最头部的明星,吸引了最多的人才、融资与聚光灯,并诞生了“大模型六小虎”;不到两年的时间里,基座大模型公司像坐上了过山车,陷入了新的融资来源、技术与产品之间的取舍、商业模式验证等诸多问题的焦虑中。


在社交平台上,我们经常看到一些“对号入座”的帖子,直击大模型公司的软肋。


基座大模型(Foundation Model 或 Base Model)是指经过大规模数据预训练得到的、具有通用语言理解和生成能力的大语言模型。基座大模型的预训练需要在超级计算机(数据中心)中使用成千上万块GPU以及数月时间来处理海量数据。然而,由于预训练成本高昂,这条路并不轻松。


有的小虎已经主动放弃继续投入超大规模大模型,比如零一万物,转而与阿里云这样的大厂展开合作。阿里云会继续做超大模型,零一万物将在此基础上训练更小规模的模型,服务于特定的行业,提供更差异化的服务。


站在创业生死存亡的角度,很难说这是一个错误的决定。李开复也公开表态说:“创业公司第一年的打法未必适用于第二年,此时如果盲目坚持一些负担不起的东西,对初创公司来说并不是正确和健康的选择。”


除了零一万物之外,其他小虎都还没有明确放弃基座大模型。但通过他们的模型布局可以看出,不同的小虎有不同的侧重点。


通过梳理可以看到,大厂中阿里布局最全面,而阶跃星辰、智谱是国内在基座模型领域布局最全面的两家创业公司,也是融资表现最好的两家。


阶跃星辰是公开露面最晚的大模型公司,但在模型的布局上却不落下风,是国内少数坚持自研基座模型的公司。阶跃星辰在去年底拿到B轮融资后,今年在AGI的路上加速狂奔,开年一口气接连上新、升级6款模型,覆盖语言、语音、推理、多模态,可谓国内的基模制造工厂。




2.多模态开年炸场

阶跃星辰的大模型家族为Step系列,Step代表阶跃函数(step function),同时也代表了其追求AGI的态度——Step by Step,一步一个脚印。


阶跃星辰此次一共发布了六款新模型,最值得关注的是step-1o多模态系列模型。这一系列模型都是原生端到端文本、视觉、语音三模态生成理解一体化模型。


其中第一款新模型是语音模型 Step-1o Audio,在情绪感知与理解、多语种和多方言和通话体验上全面升级。这款模型在一个月前首次上线,是国内首个千亿参数端到端语音大模型。



第二款新模型Step-1o Vision是最新多模态模型step-1o的视觉版本,相比于Step-1V系列模型,模型架构升级,拥有更强的视觉性能,视觉感知和识别、指令跟随、空间理解与推理等方面实现了显著提升。Step-1o Vision能更准确地识别图像内容,即使是复杂场景或相似图片,也能轻松识别,甚至还能精确识别图中的多种语言。


值得一提的是,这款模型刚上线就拿下了中国多模态理解大模型的双料冠军。1月20日,LMSYS Org发布了大模型竞技场Chatbot Arena最新榜单,Step-1o Vison在其中位列视觉领域中国大模型第一,超过所有国内大模型公司。


在最新发布的国内权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测实时榜单中,Step-1o Vison也实现了霸榜。


多模态理解能力一直是阶跃星辰的强项,很多AI应用开发者正在基于阶跃星辰多模态大模型构建产品。去年,网红AI应用「胃之书」基于阶跃星辰多模态能力,帮助用户以更快捷有趣的方式记录饮食,开发者赵纯想公开表示曾对国内大部分模型做过 AB 测试,最终发现阶跃星辰付费率最高。


第三款新模型是升级版的视频生成模型Step-Video V2,据悉阶跃很快将对外发布,「甲子光年」提前拿到了内测名额,目前可以在跃问网页版申请内测。


阶跃星辰的视频生成模型可以生成8秒的高清视频。从测试结果来看,Step-Video V2在复杂运动、美感、人物、简单文字生成、中英双语输入和镜头语言方面具备更强的生成能力。


比如,推拉摇移等更加丰富的镜头语言:


提示词:视频中,乐高哈利波特魔法城的全景特写展示了一个由乐高积木构建的魔法世界。一个乐高小人在城堡前走来走去。画面中,城堡的每一个细节都被清晰地呈现,从尖塔到窗户,都展现了乐高积木的独特魅力。城堡的周围环绕着浓郁的魔法氛围,让人仿佛置身于哈利波特的故事中。整个画面采用环绕拍摄,镜头稳定,给人一种安静而专注的感觉。

更加逼真的人物形象:

提示词:一位男性,身穿黑色西装,搭配深色领带和白色衬衫,脸部带有伤痕,表情凝重。


多个主体运动,与精致的画面美观度:

提示词:热带鱼在海洋礁石中游动,超高清。

阶跃星辰发布的第四款新模型是推理模型Step R-mini,这是Step系列模型家族的首个推理模型,补齐了基座大模型的最后一块拼图。

推理模型的工作原理在于引入了像人类一样的慢思考能力,被称为System 2,通过深思熟虑来解决更复杂的推理问题。Step R-mini能够主动进行规划、尝试和反思,有慢思考和反复验证的逻辑机制,擅长通过超长推理能力解决逻辑推理、代码和数学等复杂问题,同时也能兼顾文学创作等通用领域。

阶跃星辰仍然把Scaling Law作为推理模型范式的核心原则,在坚定Training-time Scaling的同时,也兼顾Test-time Scaling。Step R-mini以强化学习(Reinforcement Learning)作为模型训练的核心阶段,同时持续扩大数据的分布与规模。在测试阶段阶跃星辰发现,System 2的范式让Step R-mini能在极复杂任务推理上达到50000 tokens(大约在5万到7万字左右)来进行深度思考。

除了语言推理模型,阶跃星辰也在打造视觉推理模型,引入了慢感知和空间推理思想,把Test-time Scaling从文本空间转移到视觉空间,实现在视觉空间下的Spatial-Slow-Thinking(空间性慢思考)。

阶跃星辰还发布了两款新的语言模型——Step-2 mini、Step文学大师版。

在语言模型中,阶跃此前最能打的版本是国内少有的万亿参数语言大模型Step-2,这款模型最直观地证明了Scaling Law的红利,以巨大的参数量推高模型的知识广度和创作能力。Step-2曾多次在LiveBench等国际权威榜单上位列国产大模型第一,本周又登上LMSYS Org最新发布的大模型竞技场Chatbot Arena榜单,成为极少数进入前十的国产大模型,成绩超越了o1-mini、Gemini 1.5 Pro-002 和 GPT-4o-2024-05-13等知名模型。

阶跃这次新发布的Step-2 mini、Step文学大师版都脱胎于Step-2,继承了 Step-2的性能,但在场景和应用便捷性、性价比上都往前走了一步,从中也看出阶跃在研发基座模型的同时,也在加速模型的商业化探索。

具体而言,Step-2 mini是一款敏捷的轻量级模型。和万亿参数(MoE 架构)的 Step-2相比,Step-2 mini以 5%左右的参数量实现了80%以上的模型性能。在输入4000 tokens的情况下,Step-2 mini的平均首字时延仅0.17秒,价格为输入1元/百万token,输出2元/百万token,商业化场景更加广泛。

Step-2 mini更快的生成速度以及高性价比是如何做到的?阶跃星辰近期首次公布了架构细节——采用自研的新型注意力机制MFA(Multi-matrix Factorization Attention,多矩阵分解注意力)及其变体MFA-Key-Reuse,相比于常用的 MHA(Multi-Head Attention,多头注意力)架构,节省了近94%的KV缓存开销,拥有更快的推理速度并大幅降低了推理成本。

Step-2文学大师版是一款专门为创作而生的语言模型。很多大模型由于过度对齐社会知识,导致创作的内容过于“AI味儿”,常常显得“假大空”和“伟光正”。而Step-2文学大师版沿袭了Step-2广袤的知识储备、对文字强大的细节把控能力,可以充分理解用户创作需求,更加贴近真实的“文学大师”风格。

用Step-2文学大师创作的悬疑小说:

3.大模型进入下半场

如果把AGI看作一场创业竞赛,2025年基座大模型公司毫无疑问进入了下半场。

如今,海外的大模型创业公司仅剩OpenAI、Anthropic与xAI三足鼎立,再加上亚马逊、谷歌与Meta几家大厂,他们可以说垄断了最顶尖的人才团队与资金。在基座大模型的范围内,其他公司很难再有机会。

尽管中美市场有所差异,但基本的市场规律不会有太大的差异。在国内,基座大模型的格局尚未完成洗牌,但已经暗流涌动。2023年年中,云启资本合伙人陈昱就告诉「甲子光年」,其实国内真不需要这么多大模型,结局会和之前的百团大战一样,最后只剩下几家。

基座大模型是通往AGI的必经之路,但要实现AGI,却存在诸多的现实挑战,既要有钱、有卡,还要找到合适的商业模式。

在众多的现实挑战下,是否人人都还笃定坚持AGI的梦想?

部分公司在技术和产品之间横跳,或改变了发展路线。而阶跃星辰一直坚持其成立之初规划的AGI技术路线图,持续迭代全类别基模,属于行业内稳健笃定的技术理想主义派。

阶跃星辰创始人、CEO姜大昕认为,大模型的演进将会经历从早期语言、视频、语音等各个模态独立发展,然后逐步融合,到彻底融合的过程。Scaling Law、多模态理解与生成的统一,是实现 AGI 的核心认知。从公司成立的第一天起,这条技术路线图就展示在阶跃星辰的公司展板上。

2025年将是大模型的洗牌之年,这必将是属于少数人的路。

(封面图来自阶跃星辰)

(文:甲子光年)

欢迎分享

发表评论