多模态语音、视觉理解及生成火力全开。
作者|赵健
上个月刚拿到B轮融资的阶跃星辰,2025年开年就开足了马力,带着最新发布的大模型来炸场了!
虽然没有开发布会,但阶跃星辰或许是从OpenAI发布会那里学到的灵感,从上周四到今天接连几天连续发布6款新模型,涵盖语言、语音、推理、多模态理解、视频生成等多个类别。
不同大模型公司往往有一个独特的标签,比如长文本、Agent、虚拟角色等,而阶跃星辰最大的特色无疑是一直在领跑行业的“多模态”能力。
在这一系列轰炸式发布中,阶跃星辰最值得关注的更新是其融合了语音、文本、视觉三种模态的Step-1o系列模型,刚升级就在LMSYS和OpenCompass最新榜单上拿下双料国产大模型第一。该系列的上一个版本Step-1V,同样曾霸榜LMSYS多模态榜单;全新发布的推理模型Step R-mini,并未止步于对文本推理的探索,已经融入多模态场景,在视觉推理上取得阶段性成果。视频生成模型也推出了Step-Video V2版本,在大幅物理运动合理性、空间感知、人物刻画细腻度等方面效果亮眼。
自出道起,阶跃的多模态模型就因为智能水平领跑行业、接入门槛低,俘获了大量AI应用开发者。阶跃很早就明确了多模态理解生成一体化的技术路线。过去一年,Step系列多模态模型多次在国内外权威评测上位列中国多模态第一,是名副其实的多模态之王。2025年,这个领先身位还在继续。
1.谁还在坚持基座大模型?
2023年,基座大模型还是AI创业公司最头部的明星,吸引了最多的人才、融资与聚光灯,并诞生了“大模型六小虎”;不到两年的时间里,基座大模型公司像坐上了过山车,陷入了新的融资来源、技术与产品之间的取舍、商业模式验证等诸多问题的焦虑中。
在社交平台上,我们经常看到一些“对号入座”的帖子,直击大模型公司的软肋。
基座大模型(Foundation Model 或 Base Model)是指经过大规模数据预训练得到的、具有通用语言理解和生成能力的大语言模型。基座大模型的预训练需要在超级计算机(数据中心)中使用成千上万块GPU以及数月时间来处理海量数据。然而,由于预训练成本高昂,这条路并不轻松。
有的小虎已经主动放弃继续投入超大规模大模型,比如零一万物,转而与阿里云这样的大厂展开合作。阿里云会继续做超大模型,零一万物将在此基础上训练更小规模的模型,服务于特定的行业,提供更差异化的服务。
站在创业生死存亡的角度,很难说这是一个错误的决定。李开复也公开表态说:“创业公司第一年的打法未必适用于第二年,此时如果盲目坚持一些负担不起的东西,对初创公司来说并不是正确和健康的选择。”
除了零一万物之外,其他小虎都还没有明确放弃基座大模型。但通过他们的模型布局可以看出,不同的小虎有不同的侧重点。
通过梳理可以看到,大厂中阿里布局最全面,而阶跃星辰、智谱是国内在基座模型领域布局最全面的两家创业公司,也是融资表现最好的两家。
阶跃星辰是公开露面最晚的大模型公司,但在模型的布局上却不落下风,是国内少数坚持自研基座模型的公司。阶跃星辰在去年底拿到B轮融资后,今年在AGI的路上加速狂奔,开年一口气接连上新、升级6款模型,覆盖语言、语音、推理、多模态,可谓国内的基模制造工厂。
2.多模态开年炸场
阶跃星辰的大模型家族为Step系列,Step代表阶跃函数(step function),同时也代表了其追求AGI的态度——Step by Step,一步一个脚印。
阶跃星辰此次一共发布了六款新模型,最值得关注的是step-1o多模态系列模型。这一系列模型都是原生端到端文本、视觉、语音三模态生成理解一体化模型。
其中第一款新模型是语音模型 Step-1o Audio,在情绪感知与理解、多语种和多方言和通话体验上全面升级。这款模型在一个月前首次上线,是国内首个千亿参数端到端语音大模型。
第二款新模型Step-1o Vision是最新多模态模型step-1o的视觉版本,相比于Step-1V系列模型,模型架构升级,拥有更强的视觉性能,在视觉感知和识别、指令跟随、空间理解与推理等方面实现了显著提升。Step-1o Vision能更准确地识别图像内容,即使是复杂场景或相似图片,也能轻松识别,甚至还能精确识别图中的多种语言。
值得一提的是,这款模型刚上线就拿下了中国多模态理解大模型的双料冠军。1月20日,LMSYS Org发布了大模型竞技场Chatbot Arena最新榜单,Step-1o Vison在其中位列视觉领域中国大模型第一,超过所有国内大模型公司。
在最新发布的国内权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测实时榜单中,Step-1o Vison也实现了霸榜。
多模态理解能力一直是阶跃星辰的强项,很多AI应用开发者正在基于阶跃星辰多模态大模型构建产品。去年,网红AI应用「胃之书」基于阶跃星辰多模态能力,帮助用户以更快捷有趣的方式记录饮食,开发者赵纯想公开表示曾对国内大部分模型做过 AB 测试,最终发现阶跃星辰付费率最高。
第三款新模型是升级版的视频生成模型Step-Video V2,据悉阶跃很快将对外发布,「甲子光年」提前拿到了内测名额,目前可以在跃问网页版申请内测。
阶跃星辰的视频生成模型可以生成8秒的高清视频。从测试结果来看,Step-Video V2在复杂运动、美感、人物、简单文字生成、中英双语输入和镜头语言方面具备更强的生成能力。
比如,推拉摇移等更加丰富的镜头语言:
提示词:一位男性,身穿黑色西装,搭配深色领带和白色衬衫,脸部带有伤痕,表情凝重。
3.大模型进入下半场
(文:甲子光年)