对话阶跃星辰创始人：2年发16款多模态模型，实现AGI的必经之路

姜大昕详解阶跃星辰多模态布局。

作者 | 陈骏达

编辑 | 程茜

智东西5月8日报道，在2年内发布16款多模态大模型之后，业内已将阶跃星辰称之为“多模态卷王”。今天，阶跃星辰创始人兼CEO姜大昕向智东西等媒体揭秘了他背后的思考。姜大昕认为，“追求智能的上限”依旧是现阶段AI业内的重点，而多模态正是实现AGI的必经之路。

▲阶跃星辰创始人兼CEO姜大昕

在姜大昕看来，无论是从AGI的定义还是AI应用的实际需求而言，多模态能力都是至关重要的。AI在视觉智能、空间智能、运动智能等任何一个方向出现短板，都有可能延缓AGI实现。

在一个多模态模型内融合理解与生成能力，即多模态理解生成一体化，是姜大昕眼中多模态模型能力提升并实现GPT-4级别的类人智能的关键。不过，多模态理解生成一体化架构仍处于探索期，尚未出现像语言模型界Transformer一样的可拓展（Scalable）架构。

在AI应用领域，阶跃星辰更多地将其模型提供给其他应用开发者。姜大昕认为，模型性能的突破会早于商业化。

此外，姜大昕还围绕着AI技术演进路线、AGI必备要素、多模态模型技术路径和AI应用等话题进行了介绍。

01.

多模态是AGI必经之路，

阶跃密集发布多项成果

姜大昕称，当下，AI技术正沿着模拟世界、探索世界、归纳世界的路径演进。

模仿学习阶段，模型主要从海量数据中学习多种模态的表征，核心问题是如何用深度神经网络统一表达多种模态。

探索世界阶段，模型需要具备复杂问题求解能力和慢思考能力。这两大能力可以通过强化学习技术获得，前生成式AI时代的AlphaGo、生成式AI时代的OpenAI o1等都是运用了这一技术。在姜大昕看来，DeepSeek-R1将推理模型由“趋势”转变为了“范式”，业内大部分厂商都开始推出类似的模型。

归纳世界阶段，模型逐渐具备自主学习能力，能发现客观世界的规律，在AI for Science领域发挥重要作用。

阶跃星辰一直认为，多模态是实现AGI的必经之路。从定义上来看，AGI对标的是人类智能，除了需要具备语言模态对应的符号智能，还需具备视觉智能、空间智能、运动智能，任何一个方向出现短板，都会延缓AGI的实现。

从应用角度看，多模态同样必不可少。智能系统只有具备听、看、说等能力后，才能理解用户环境，和用户自然交互。

正是基于上述原因，阶跃星辰格外重视多模态模型，几乎以每个月发布一款基础大模型的速度进行迭代。日前，阶跃星辰联合Ace Studio开源Ace-Step音乐大模型，参数量仅有3.5B，支持19种语言，最快可在15秒内生成一首歌曲。

近日，阶跃星辰还发布了Step-R1-V-Mini多模推理模型，具备高精度感知能力。现场演示视频中，这款模型可以结合照片中的文字、图像信息，综合推理，并正确判断出照片所对应的场馆。这款模型已运用至门店巡检、短剧审核等生产场景。

02.

视觉领域的GPT-4时刻尚未到来，

押注多模态理解生成一体化

谈及未来AI研究的发展趋势，姜大昕着重分享了多模态理解生成一体化这条技术路径。

多模态理解生成一体化指的是在同一模型内完成理解与生成任务，这项技术已在语言层面实现。如今的大语言模型既能完成总结、问答等理解型任务，也可以完成撰写文章等生成性任务。

在多模态领域，由于图片、视频等模态的复杂度极高，理解生成一体化难题还有待突破，这也导致现有多模态模型在实际应用场景中存在一些局限性。

例如，在生成一段“教师撰写板书”的视频时，现有多模态模型已经有能力生成画面中手的姿势、粉笔书写的痕迹，但如果要根据现有画面内容预测下一步应该书写什么内容，就需要整合理解能力。

姜大昕称：“生成需要理解控制，理解需要生成监督。”也就是说，为了确保生成的内容是有意义的，模型需要对上下文有更好的理解能力；而只有当模型能够生成内容时，才意味着模型真正理解了上下文。

目前，在多模态理解生成一体化方向，尚未出现可拓展的模型架构。姜大昕认为，对多模态模型而言，逼近人类智能的“GPT-4”时刻尚未到来，对应大语言模型的发展阶段，多模态模型仍处于“前Transformer”时期。

在多模态理解生成一体化架构探索结束后，多模态模型还需走过多个阶段：利用海量图片和视频进行预训练和指令遵循能力培养、提升视觉时空推理能力、融合3D能力等，最终形成世界模型。姜大昕认为，现在AGI的路线已愈发清晰，如果走到世界模型阶段，“我眼中的AGI就实现了”。

姜大昕透露，阶跃星辰内部现在有多个团队在探索多模态理解生成一体化的架构。同时，在这一方向他们已有了最新的成果——开源Step1X-Edit图像编辑模型，这款模型已经初步具备了一定的理解生成一体化能力，阶跃星辰也会在未来几个月内发布能力更强的图像编辑模型。

03.

超级模型+超级应用双轮驱动，

模型性能突破早于商业化

阶跃星辰一直坚持超级模型+超级应用双轮驱动的策略，在应用层，2025年最热的概念就是Agent。姜大昕认为，2025年Agent爆发有两大必要条件。

首先，多模态能力使Agent能感知环境（视觉、语音等），理解任务上下文。其次，慢思考（深度推理）能力使模型能处理复杂任务，分步骤进行分析与决策。

Agent能力的爆发使阶跃星辰看到了智能终端Agent的潜力，这也是该公司在应用侧的重要发力方向。谈及这一决策，姜大昕称，终端是用户感知的延伸，诸如手机、AI眼镜、耳机等设备天然收集环境数据，可帮助Agent理解用户需求。同时，智能终端也具备帮助用户完成特定任务的行动能力。

目前，阶跃星辰在智能终端Agent的落地场景包括手机、汽车与机器人等。在OPPO手机上的“一键问屏”功能就使用了阶跃星辰的多模态模型；吉利的智能座舱中则使用了阶跃星辰的端到端语音交互技术。

阶跃星辰还与智元机器人等展开合作，阶跃星辰的多模态大模型相当于机器人的“大脑”，结合具身领域负责动作的“小脑”，实现从感知、理解、规划任务到控制运动。

在其它AI应用领域，阶跃星辰将基础大模型能力提供给其它各垂类应用开发者。姜大昕认为，模型性能的突破会早于商业化，只有模型性能突破，才能催生具有潜力的应用场景。

04.

结语：坚持基础模型研发，

多模态成差异化优势

作为国内较早布局多模态方向的大模型创企，多模态模型占阶跃星辰模型发布总量的70%以上。

姜大昕称，未来，阶跃星辰将坚持基础大模型的研发，追求AGI这一初心不会改变。在当前的基础大模型格局中，阶跃星辰将多模态作为其差异化优势，积极探索多模态理解与生成一体化这一前沿方向，也相信该领域存在着巨大的机会。

（

（文：智东西）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复