对话阶跃星辰创始人:2年发16款多模态模型,实现AGI的必经之路

姜大昕详解阶跃星辰多模态布局。
作者 |  陈骏达
编辑 |  程茜
智东西5月8日报道,在2年内发布16款多模态大模型之后,业内已将阶跃星辰称之为“多模态卷王”。今天,阶跃星辰创始人兼CEO姜大昕向智东西等媒体揭秘了他背后的思考。姜大昕认为,“追求智能的上限”依旧是现阶段AI业内的重点,而多模态正是实现AGI的必经之路。

▲阶跃星辰创始人兼CEO姜大昕

在姜大昕看来,无论是从AGI的定义还是AI应用的实际需求而言,多模态能力都是至关重要的。AI在视觉智能、空间智能、运动智能等任何一个方向出现短板,都有可能延缓AGI实现。
在一个多模态模型内融合理解与生成能力,即多模态理解生成一体化,是姜大昕眼中多模态模型能力提升并实现GPT-4级别的类人智能的关键。不过,多模态理解生成一体化架构仍处于探索期,尚未出现像语言模型界Transformer一样的可拓展(Scalable)架构。
在AI应用领域,阶跃星辰更多地将其模型提供给其他应用开发者。姜大昕认为,模型性能的突破会早于商业化
此外,姜大昕还围绕着AI技术演进路线、AGI必备要素、多模态模型技术路径和AI应用等话题进行了介绍。

01.
多模态是AGI必经之路,
阶跃密集发布多项成果


姜大昕称,当下,AI技术正沿着模拟世界、探索世界、归纳世界的路径演进。
模仿学习阶段,模型主要从海量数据中学习多种模态的表征,核心问题是如何用深度神经网络统一表达多种模态。
探索世界阶段,模型需要具备复杂问题求解能力和慢思考能力。这两大能力可以通过强化学习技术获得,前生成式AI时代的AlphaGo、生成式AI时代的OpenAI o1等都是运用了这一技术。在姜大昕看来,DeepSeek-R1将推理模型由“趋势”转变为了“范式”,业内大部分厂商都开始推出类似的模型。
归纳世界阶段,模型逐渐具备自主学习能力,能发现客观世界的规律,在AI for Science领域发挥重要作用。
阶跃星辰一直认为,多模态是实现AGI的必经之路。从定义上来看,AGI对标的是人类智能,除了需要具备语言模态对应的符号智能,还需具备视觉智能、空间智能、运动智能,任何一个方向出现短板,都会延缓AGI的实现。
从应用角度看,多模态同样必不可少。智能系统只有具备听、看、说等能力后,才能理解用户环境,和用户自然交互。
正是基于上述原因,阶跃星辰格外重视多模态模型,几乎以每个月发布一款基础大模型的速度进行迭代。日前,阶跃星辰联合Ace Studio开源Ace-Step音乐大模型,参数量仅有3.5B,支持19种语言,最快可在15秒内生成一首歌曲。
近日,阶跃星辰还发布了Step-R1-V-Mini多模推理模型,具备高精度感知能力。现场演示视频中,这款模型可以结合照片中的文字、图像信息,综合推理,并正确判断出照片所对应的场馆。这款模型已运用至门店巡检、短剧审核等生产场景。

02.
视觉领域的GPT-4时刻尚未到来,
押注多模态理解生成一体化


谈及未来AI研究的发展趋势,姜大昕着重分享了多模态理解生成一体化这条技术路径。
多模态理解生成一体化指的是在同一模型内完成理解与生成任务,这项技术已在语言层面实现。如今的大语言模型既能完成总结、问答等理解型任务,也可以完成撰写文章等生成性任务。
在多模态领域,由于图片、视频等模态的复杂度极高,理解生成一体化难题还有待突破,这也导致现有多模态模型在实际应用场景中存在一些局限性。
例如,在生成一段“教师撰写板书”的视频时,现有多模态模型已经有能力生成画面中手的姿势、粉笔书写的痕迹,但如果要根据现有画面内容预测下一步应该书写什么内容,就需要整合理解能力。
姜大昕称:“生成需要理解控制,理解需要生成监督。”也就是说,为了确保生成的内容是有意义的,模型需要对上下文有更好的理解能力;而只有当模型能够生成内容时,才意味着模型真正理解了上下文。
目前,在多模态理解生成一体化方向,尚未出现可拓展的模型架构。姜大昕认为,对多模态模型而言,逼近人类智能的“GPT-4”时刻尚未到来,对应大语言模型的发展阶段,多模态模型仍处于“前Transformer”时期
在多模态理解生成一体化架构探索结束后,多模态模型还需走过多个阶段:利用海量图片和视频进行预训练和指令遵循能力培养、提升视觉时空推理能力、融合3D能力等,最终形成世界模型。姜大昕认为,现在AGI的路线已愈发清晰,如果走到世界模型阶段,“我眼中的AGI就实现了”。
姜大昕透露,阶跃星辰内部现在有多个团队在探索多模态理解生成一体化的架构。同时,在这一方向他们已有了最新的成果——开源Step1X-Edit图像编辑模型,这款模型已经初步具备了一定的理解生成一体化能力,阶跃星辰也会在未来几个月内发布能力更强的图像编辑模型。

03.
超级模型+超级应用双轮驱动,
模型性能突破早于商业化


阶跃星辰一直坚持超级模型+超级应用双轮驱动的策略,在应用层,2025年最热的概念就是Agent。姜大昕认为,2025年Agent爆发有两大必要条件。
首先,多模态能力使Agent能感知环境(视觉、语音等),理解任务上下文。其次,慢思考(深度推理)能力使模型能处理复杂任务,分步骤进行分析与决策。
Agent能力的爆发使阶跃星辰看到了智能终端Agent的潜力,这也是该公司在应用侧的重要发力方向。谈及这一决策,姜大昕称,终端是用户感知的延伸,诸如手机、AI眼镜、耳机等设备天然收集环境数据,可帮助Agent理解用户需求。同时,智能终端也具备帮助用户完成特定任务的行动能力。
目前,阶跃星辰在智能终端Agent的落地场景包括手机、汽车与机器人等。在OPPO手机上的“一键问屏”功能就使用了阶跃星辰的多模态模型;吉利的智能座舱中则使用了阶跃星辰的端到端语音交互技术。
阶跃星辰还与智元机器人等展开合作,阶跃星辰的多模态大模型相当于机器人的“大脑”,结合具身领域负责动作的“小脑”,实现从感知、理解、规划任务到控制运动。
在其它AI应用领域,阶跃星辰将基础大模型能力提供给其它各垂类应用开发者。姜大昕认为,模型性能的突破会早于商业化,只有模型性能突破,才能催生具有潜力的应用场景。

04.
结语:坚持基础模型研发,
多模态成差异化优势


作为国内较早布局多模态方向的大模型创企,多模态模型占阶跃星辰模型发布总量的70%以上。
姜大昕称,未来,阶跃星辰将坚持基础大模型的研发,追求AGI这一初心不会改变。在当前的基础大模型格局中,阶跃星辰将多模态作为其差异化优势,积极探索多模态理解与生成一体化这一前沿方向,也相信该领域存在着巨大的机会。

(文:智东西)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往