阶跃星辰创始人、CEO姜大昕
DeepSeek热潮下,“大模型六虎”们逐步开始“分化”,更多转向产业界和落地商业化阶段。
钛媒体AGI 2月21日消息,今天举行的首届Step UP生态开放日上,AI“大模型六虎”之一的阶跃星辰公布开源大模型、Agent智能体进展和全新的开源推理和视频推理模型等。
阶跃星辰创始人、CEO姜大昕在演讲中表示,公司朝着实现AGI的目标稳步前进,目前已进入Agent(智能体)的发展阶段。他指出,智能体的发展依赖于两大关键要素:一是多模态能力,让智能体充分地感知和理解世界;二是推理能力,使智能体能够进行长思维链的慢思考,主动规划、尝试、反思,通过不断纠错提供准确的答案。
同时,姜大昕透露,今年3月,阶跃星辰将开源新的图生视频模型。
此外,阶跃星辰还发布全新升级的“繁星计划”2.0,其中包括与国有企业上海仪电、上海国有资本投资有限公司、徐汇资本等筹集一个阶跃星辰生态基金,但未透露具体金额。而该项计划旨在为Agent应用开发者提供模型、算力、资本、数据和企业孵化等全方位支持,并将联合模速空间为优质创业项目提供办公场地支持,在上海打造大模型产业聚集效应。
据悉,阶跃星辰成立于2023年4月,由微软前全球副总裁姜大昕创办,ResNet作者之一的AI科学家张祥雨、拥有丰富大规模集群与系统建设经验的AI系统专家朱亦博等都先后加入阶跃星辰,主要瞄准AGI。
2024年12月,阶跃星辰宣布完成B轮融资,总融资金额达数亿美元,核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投资人包括腾讯投资、五源资本、启明创投等。
过去一年,阶跃星辰共发布11款多模态大模型,覆盖语音识别、语音生成、多模态理解、图像及视频生成的全面能力。今年1月,阶跃星辰发布了 Step R-mini,成为Step系列的首款推理模型,进一步拓展了大模型的能力边界。
阶跃星辰近期持续发力开源,已陆续开源两款模型——300亿参数的图生视频模型Step-Video-T2V,以及1300亿参数的语音模型Step-Audio。此外,就在2月18日,阶跃星辰与清华大学联合开源了大规模强化学习RL的推理模型Open-Reasoner-Zero,拥有7B、32B版本。其中,32B版表现优于DeepSeek-R1-Zero-Qwen-32B,训练步骤减少到原有1/30,效率提升了25倍。
对于开源的原因,姜大昕表示,在DeepSeek感召下,阶跃星辰在多模态领域有个深厚的积累,也创建了强大的模型,开发者也热切的盼望在多模态领域是否也能够出现非常强大的多模态模型,因此,阶跃星辰选择在近期发布开源多模态模型技术。
“多模理解持续领先,多模推理率先探索。”显然,从训练转移到推理,多模态会成为主流的需求。
姜大昕还透露了阶跃星辰未来两个重点关注的方向:多模态推理以及Agent智能体技术,以实现阶跃星辰AGI的技术路线“单模态—多模态—多模理解和生成的统一—世界模型—AGI”。
其中,在多模态推理,阶跃星辰正在进行“视觉推理模型”研发,他提到,这一模型能够实现视觉空间下的慢思考。
“模拟世界这个阶段,训练模型的主要范式是模仿学习,而学习的主要目标是各种模态的表征,包括从声音、文本、图像、视频一直到4D时空的物理世界。对于复杂问题的求解,人脑是启动了一套‘第二系统’,或者就是说慢思考的能力。在每个步骤,如果我们发现开始的思路不对,可能还会重新设想我们的思路,不断探索,直到解决成功为止。”姜大昕称。
Agent层面,阶跃星辰将智能终端Agent视为大模型技术落地的核心突破点,在姜大昕看来,影响Agent的两个关键因素,多模态和慢思考在2024年都有了显著的进展。因此,阶跃星辰重点布局垂类Agent(企业和开发者)、智能终端Agent(汽车、手机、具身智能、IoT)智能体落地,包括与吉利汽车集团、千里科技、OPPO、智元机器人、TCL等企业展开合作,共同打造垂直场景下的创新C端应用体验。
“那么所谓主动就是Agent,能够主动的观察用户所处周围的环境,或者说他周围的context是主动的发起或者完成任务,而不是仅仅被动的接受任务。大家要想能够自主完成复杂任务,这个目标还需要一些辅助的功能。”姜大昕表示,随着底座大模型能力的不断增强,Agent能力还会不断进化,会经历五个阶段。最终,Level 5从智商上升到了情商。
此外,值得一提的是,“AI四小龙”(商汤、旷视、依图、云从)之一的旷视科技联合创始人印奇,带着新身份“千里科技董事长”,与吉利汽车集团副总裁、吉利汽车研究院院长李传海,一同出现在生态日圆桌论坛上。
这是印奇首次亮相。
据悉,2月18日,力帆科技正式更名为千里科技(SH:601777,前称为力帆股份),而蜕变升级而来的全新品牌将聚焦“AI+车”的核心战略,以科技创新为核心竞争力,创新产业发展模式,全面增进自动驾驶、智能座舱等领域的研发实力。而印奇是千里科技的股东、公司董事长,吉利产投也是千里科技股东之一。
AI一日,世上一年,现在千里,一日千里。印奇表示,目前最成功的AI产品,仍然是特斯拉和抖音,不过,大模型也将给应用带来更大的市场空间。
钛媒体AGI整理了印奇首次亮相的现场提到的重要信息:
-
印奇认为身份没有变化,一直还是AI创业,他认为AGI、机器人(robotic)在过去创业历程中是非常重要的两个方向。
-
印奇称,一个产业的发展方向和节奏,有可能节奏比方向更重要。因为在中国创业,大家经历了十几年,出现一轮又一轮的AI创业者,每个领域技术发展一直往前,而商业模式也有很多变化。因此,我们需要在技术成熟之后,同时找到一个最核心的载体,而新一轮大模型时代有可能是AI创业者最幸福的时代,技术上AGI载体有可能是车,这是面向“具身智能”的必要路径。
-
今天没有真正的AI+的核心应用场景出来。过去十年,+AI的两个最重要的成功案例,一个是特斯拉,一个可能是抖音,一个是线下一个是线上,这些都是原有产业的领军者,用AI给产业做的巨大赋能。但是,AI+的概念是,用AI大模型时代做全新的应用,且它AI比重超过50%,创造的是10倍的价值,这样应用至今还没有出现。而我相信,未来的AI+车,有可能是第一个落地的场景。
-
关于智能驾驶和智能驾舱:智驾领域,我自己的判断,未来3年应该是收敛期,L3、L4逐步的去推广化,这是整个车生态化智能化的开端,甚至这可能是“第一季刚打完”,只有当这个车能自动行驶,可能是给车后面的大众化和像人化提供基础。这是大模型在车上的Agent应用有潜力和有希望的一个点。
-
千里科技的核心定位是“AI+车”,主要构建AI原生以及软硬结合,希望基于吉利汽车服务好吉利生态,利用好阶跃大模型的能力,需要有一个整体解决方案的供应商,真正把技术、产品、软硬件结合在一起。
-
谈DeepSeek:春节很热闹,我认为所有的产业发展都是连续的,DeepSeek是非常优秀的中国开源模型嗲表,而中国AI发展是连续的过程,也是厚积薄发的过程。
-
当前发展中,最重要的是Agent和终端的关系,随着Agent到来,我听到的“把终端做三个分类”这一观点:我、你、他。其中,“我”这种类型的硬件是手机为代表的,眼镜、耳机都是器官的延伸,一类大的硬件;第二是“你”类硬件,汽车、未来的具身智能;第三是“他”类硬件,当年小米生态IoT之类。
-
因此,Agent最重要的两个硬件就是手机和车。未来,和Agent结合的切口和爆发点有不一样的点在于,Agent能让终端跨过细分应用,变成直接给用户提供服务。大家可以设想,偏效率和工具的应用如果有一个更好的生态,对用户来讲是越来越无感的,每个硬件能够帮用户触达,帮他解决一些物理的执行,那么用户真不在乎服务的提供商是谁,需要的是可靠的,高性能低价格的服务,硬件会变得史无前例的重要,当年我们觉得手机很重要,但是未来终端会更重要。而看整个产业链,其实终端并没有发挥最大的商业价值,而移动互联网做了大量的价值分享,我认为,和好的终端构建更亲密、战略关系,以及将终端利益的新价值分配,匹配大模型时代,可能是未来三年比较重要的话题。
-
现在,差异化变得重要,AI 和硬件都没有卷到第一,但是做“组合拳”,将真正在AI闭环上走通价值链条。
-
随着Agent拥有情感化,人和车的关系将会重构。如果5年后,使用车的时长平均超过3小时,那么车的属性可能就变了,可能就不仅是交通工具,它会变成一个“第三空间”,因此,车就会变成继手机之后另外一个“大脑”,把“驾驶角色+空间角色+机器人陪伴角色”等三种角色融合到一起。
此次开放日上,吉利汽车集团、千里科技和阶跃星辰联合宣布,将进一步加强三方现有技术合作伙伴关系,推动“AI+车”的深度融合。
“我觉得,聊天机器人现在和人类连接还是非常肤浅的,因为聊天机器人只能通过聊天内容来知道用户情况,而人类是可以陪伴在用户的左右,Agent产品需要真正的做到感同身受,从而提供情绪价值。”姜大昕在演讲结尾表示。
(文:钛媒体AGI)