跳至内容
DeepSeek 掀起的浪潮还没结束 ,不只是 OpenAI ,中国的「 AI 六小龙」都要面临拷问:Scaling Law 是否还能持续,开源还是闭源,AI 落地的路线是否还行得通。
今天,AI 六小龙中一直比较低调的阶跃星辰,率先交出今年的第一份答卷。
在首届 Step UP生态开放日,阶跃星辰公布了自己探索 AGI 的方式,开启多模态推理的技术研究,并将 AI 落地的重点押注在智能终端,重点布局汽车、手机、具身智能、IoT 等应用场景。
阶跃星辰创始人、CEO 姜大昕认为,智能终端将成为 Agent (智能体)技术大规模应用的关键载体。
们朝着实现 AGI 的目标稳步前进,目前已进入 Agent(智能体)的发展阶段。
二是推理能力,使智能体能够进行长思维链的慢思考,主动规划、尝试、反思,通过不断纠错提供准确的答案。
多模态让智能体像人一样「看、听、懂」,相当于人的「感官系统」,而推理能力就是处理信息的「大脑皮层」。
二者结合就能让 AI 《红楼梦》里的王熙凤,一双丹凤三角眼,不仅能察言观色,还能从一句话、一个动作中读出对方的深意。
多模态也是阶跃星辰在六小龙中最大的特点,目前阶跃 Step 系列模型矩阵已经发布了 11 款多模态大模型,覆盖语音识别、语音生成、多模态理解、图像及视频生成的全面能力。
前几天阶跃星辰还开源了 Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,成为六小龙最快拥抱开源的其中一位,但和 DeepSeek 不同的是,阶跃星辰开源的模型均为多模态,而这也是 DeepSeek 还没展现的能力。
去年 APPSO 就曾用阶跃星辰旗下的跃问应用,让还不支持的苹果 AI 的国行 iPhone 16 ,获得类似官方视觉智能的能力。按下拍摄按钮,拍照问就能轻松打开,看到任何需要咨询的东西,基本都能找到答案。
至于推理能力,阶跃星辰今天还宣布了和清华大学共同研发的开源推理模型 Open-Reasoner-Zero,首次从预训练模型开始就大规模强化学习,效率达到 DeepSeek-R1-Zero 的 25倍。
姜大昕在现场还预告了内部正在研发的视觉推理模型,其实这样揭示了阶跃星辰推动 AI 落地的技术逻辑:将多模态能力和推理能力结合,让智能终端成为 Agent 的载体。
目前,阶跃星辰的模型能力在智能终端主要有以下这些场景。
-
汽车场景:与吉利合作开发的智能座舱Agent,通过多模态交互(语音+视觉)实现「可见即可说」,例如用户说「导航到最近的充电站」,Agent自动调用地图、查询充电桩状态并规划路线。
-
手机场景:与 OPPO 共建的「一键问屏」功能,用户拍照或截图后,Agent 能直接解析图片内容(如商品、文档)并调用 API 完成搜索或翻译,无需手动切换 App。
-
IoT场景:与 TCL 等厂商合作,通过设备间联动实现主动服务,实现设备间的智能化升级和体验的无缝连接。
-
具身智能,:促进 Agent 在具身领域的创新应用。阶跃星辰宣布与智元机器人战略合作,共同探索 AI+具身机器人应用场景。
AI 智能终端是一个既性感又饱受争议的概念,可能会让很多硬件通过 AI 提升用户的体验,最近不少手机纷纷都宣布接入 DeepSek,同时去年爆火的 AI 硬件 Ai Pin,下个月就将停止所有的 AI 服务、消息推送等联网功能。

目前大多数手机接入的 DeepSeek,都是给语音助手加一个插件式外挂,同时由于 DeepSeek 尚不支持多模态能力,使用场景受到的限制就比较多。最近网上流行的「DeepSeek+xx」的组合玩法,其实就是为了弥补其缺乏的能力。
去年率先喊出 AI 手机的 OPPO,就在 AI 终端融合走得更远。
比如使用小布助手App「一键问屏」,用户通过多模态视觉跟 AI 交互,实现拍照问答、文档问答,识屏问答等多种功能。
用户甚至可以给小布下达指令让它进入各种应用端完成任务,比如进入淘宝、京东搜索同款商品,在小红书、同花顺、携程等平台搜索信息和服务,在飞书、钉钉、企业微信等社交软件搜索聊天记录等,实现一键全能搜。
这些功能OPPO 基于阶跃星辰 Step 系列多模态模型共同开发的,OPPO 智能助理部部长、小布助手负责人万玉龙告诉我们,随着新一代 AI 技术与移动终端的深度融合,手机已经逐步进化为能够理解用户意图、提供主动服务、甚至预判用户需求的智能助理。
智能终端正在迈入 Agent 时代。和过去最大的不同在于:本地化 AI 推理能力使终端从被动响应指令的工具,升级为主动理解需求、跨应用协同的「智能伙伴」。
让这一蓝图成为现实的,则是多模态 AI 智能体,它将作为新的交互界面,无需物理界面,类似《阿凡达》中的灵魂树,连接所有赛博智能体,用户甚至通过思维直接与 AI 交互,来完成所有现实任务的执行。
姜大昕提出 AGI 发展需经历模拟世界、探索世界、归纳世界三大阶段:
-
模拟世界:通过模仿学习训练多模态模型,统一表征声音、文本、图像、视频及物理世界。
-
探索世界:引入强化学习(如AlphaGo、DeepSeek),赋予模型逻辑推理与问题解决能力。
-
归纳世界:探索机器自主发现物理规律的能力,如牛顿从苹果落地推导万有引力定律,目标是将 AI 与科学家协同创新。
通往 AGI 的路或许不止一条,但总需要有人去蹚出不同的路,阶跃星辰选择了智能终端 Agent 这条路,或许下一次人机交互的革新,已经埋下了草蛇灰线。

我们正在招募伙伴
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
(文:APPSO)