千寻智能韩峰涛:到2025年底,投资人会更看好具身智能丨涌现36人

涌现(Emergence),是生成式AI浪潮的一个关键现象:当模型规模扩大至临界点,AI会展现出人类一般的智慧,能理解、学习甚至创造。

「涌现」也发生在现实世界——硅基文明一触即发,AI领域的创业者、创造者,正在用他们的智慧与头脑,点亮实现AGI的漫漫征途。

在新旧生产力交替之际,《智能涌现》推出新栏目「涌现36人」,我们将通过与业界关键人物的对话,记录这一阶段的新思考。

王方玉

编辑苏建勋


“为什么机器人这么火,但是落地的应用却那么少呢?为什么机器人的销量总是上不去?”

2023年6月30日,还是珞石机器人CTO的韩峰涛在知乎上发表的万字长文《当机器人拥抱大模型》中提出这些疑问。文中,韩峰涛意识到机器人可用性差、渗透率低的根源在于智能水平不够,并找到了AI大模型——这个能够解决机器人智能问题的最终答案。

数月后,韩峰涛离开珞石机器人再创业,方向是“具身智能”。

韩峰涛找到了高阳。高阳博士毕业于有着“具身智能大本营”之称的伯克利大学,在计算机视觉和强化学习有多年研究经验,目前是清华交叉信息研究院的助理教授和博导。

一个是机器人硬件行业的老兵,期待机器人可以借助AI觉醒智能;一个是研究AI十多年的科学家,希望AI能够赋能物理世界,韩峰涛与高阳两人一拍即合,千寻智能就此创立。

千寻智能公司前台          来源:作者拍摄

两个技术出身的创始人,给千寻智能赋予了浓郁的“理工男”气质。

千寻智能位于西二旗软件园的办公室,前台并无过多的装饰,最吸睛的则是一台自家的人形机器人正在门口进行调试。

从创始初期几个人的团队,到现在将近60人,公司规模的快速扩张让办公空间略显局促,工作日里,会议室几乎全满,采访当天甚至很难找到空闲会议室。

在这样极简的办公空间中,韩峰涛在与《智能涌现》采访中应景地说道 “这是我二次创业,资金使用效率在业内是很高的。”

可为了招揽人才,千寻智能也可以不惜重金。

前不久,千寻智能挖来前字节跳动 AI 技术专家解浚源,担任具身智能部负责人。在韩峰涛看来,实现具身智能需行业最优秀的人才,这些人才很贵,但值得花钱。

我们也和韩峰涛聊到眼下投资机构对具身智能的复杂情绪(采访发生时,朱啸虎对具身智能的“看空”言论还未出现)。赛道虽火,但投资机构对于其中的智能化、商业化前景,仍无共识。

“到今年年底,他们肯定就看好和相信了。”韩峰涛对《智能涌现》自信地说道。

回顾第一次创业的历程,韩峰涛形容那是“拿着锤子找钉子”,主要是为了用上毕生所学的知识;第二次创业,韩峰涛想要回归到最真实的市场需求——解决机器人的智能问题,提高机器人的泛化能力和可用性。

同时,韩峰涛还学会了更有效率地“花钱”。他的经验是,公司经营最大的浪费来自于“重做”,要避免这个问题,管理层对于要落地的方案必须深度思考、精雕细琢,还要坚守战略定力,把钱花在公司上下都同意的一致目标上。

当下,具身智能公司正扎堆发布人形机器人新品,步伐快的,则忙着送机器人进工厂和商业门店,它们也被外界和媒体更多地关注和讨论。

千寻智能则奋战在另一条跑道上。千寻既做软件,也做硬件,但把更多精力投向了具身智能模型研发。韩峰涛一直坚持的观点是“如果一家做机器人本体的公司不做具身智能模型,它也不知道什么是好的硬件。”

“我们目前在模型训练和机器人本体研发上的精力分配,大概在8:2。如果一家具身智能企业的目标是达到GPT3.5的水平,企业的主要精力应该放在模型能力上。韩峰涛表示。

具身智能是全球顶级的科学家和专业人才努力攻克的前沿问题。它代表着人类在AGI之外的另一个终极梦想——让机器人像人一样通过交互、感知和行动自主执行各类复杂任务,帮助或替代人类。

正因“终极”,通用具身智能一度并不被投资机构所相信和认可。与AI大模型相似,这是个大胆的、长周期的、不确定性高的赛道,直到2024年10月美国具身智能公司Physical Intelligence(以下简称PI)的一场发布会。

在发布会展示的demo中,PI把叠衣服做到了基本实用化的水平,实现了机器人前所未有的泛化能力,这让很多投资机构、从业者们看到了通用具身机器人的希望。

PI的新模型发布成为里程碑事件。具身智能领域此前存在着多条的不同的技术路线,它们开始逐渐向PI的“统一端到端大模型路线”收敛。

具身智能赛道在一级市场的热度也在PI的发布会之后飙升,成为继大语言模型后新的投资热门赛道。2024年10月至今,国内的星动纪元、星海图、自变量机器人、它石智航等多家具身智能创业公司拿到数亿元的新一轮融资。

千寻智能也是其中之一,它于近期完成5.28亿元Pre-A轮融资,投资方包含了阿美旗下Prosperity7 Ventures(P7),招商局创投、广发信德、靖亚资本、东方富海、华控基金等。

今年3月中旬,千寻智能对外披露了Spirit v1 VLA 模型一镜到底叠衣服的demo(样片)视频,复现了美国公司PI的泛化操作能力。这也是公司自成立以来取得的最大的阶段性技术成果。

韩峰涛承认通用具身智能的实现还很远,但他并不担心在短期内会遇到瓶颈。

具身智能跟大模型一样也存在Scaling Law,模型能力主要取决于数据的质量和数量。而在目前行业内高质量数据很少的情况下,以PI为代表的厂商已经达成了不错的效果。未来随着数据质量提升和数量增加,模型能力还将持续提升。” 他对智能涌现表示。

要对人类产生价值,结出商业化果实,也并不需要全能的具身智能。韩峰涛认为,未来2-3年具身智能就可以在一些细分场景落地和商业化,从而让企业发展和融资更加可持续。

在我们的采访和知乎的万字长文中,韩峰涛都提到了刘慈欣的小说《朝闻道》。

在这个短篇小说里,原始人因为仰望星空的时间超过了某个预设的阈值,而触发了外星高级文明——宇宙排险者的警告。因为在高级文明看来,当生命意识到宇宙奥秘的存在时,距它最终解开这个奥秘只有一步之遥了。

韩峰涛觉得同样的哲理也适合当下的具身智能赛道。“经过半个多世纪的发展,今天的机器人产业也许正迎来仰望星空的那一刻。”他在文末抒情地写道。

以下是《智能涌现》和千寻智能创始人韩峰涛的对话。内容略经编辑:

“具身智能的价值很快会成为共识”

《智能涌现》对于具身智能,投资机构好像还有比较大的分歧,真格戴雨森说通用人形机器人还太早,Coatue报告里提到具身智能可能不会有 ChatGPT 时刻。你怎么看?

韩峰涛:我觉得到今年年底,他们肯定就看好和相信了。

就好像部分投资人原来的态度是“不投大模型,中国大模型公司没戏。”但是DeepSeek火了之后态度发生很大改变,甚至不在意估值也希望参与其中。

第一个,这些投资人此前没看到中国企业能把东西做出来;第二个,从技术发展来看,具身智能已经具备落地的基础技术能力了,只是产品形态定义,目标人群,包括技术开发还要再完善一些。

要开发一个通用人形机器人还很远,但未来2-3年具身智能就可以在一些细分场景落地,但不一定放在人形这个形态上。

《智能涌现》你说未来2-3年具身智能就可以落地。能举例说明一下哪些细分场景吗?

韩峰涛:比如说叠衣服的场景,服装厂、洗衣房都需要叠大量的衣服。我在上一家公司处理过这个需求,原先的工业机器人解决不了,但具身智能大模型可以,至于负责执行的本体是不是人形无所谓,能解决问题就可以。

《智能涌现》所以具身智能和人形机器人是两回事,并不是同步发生的。

韩峰涛:对,人形机器人和具身智能是两个不同的方向人形机器人更强调本体的形态,而具身智能则不局限于人形机器人,更注重模型能力和AI能力。

在具身智能的概念中,机器人可以呈现多种形态。

《智涌现》你担心具身智能下一步的智能提升遇到瓶颈吗?

韩峰涛:我觉得不会。第一个,叠衣服已经是一个非常难的操作了,如果具身智能可以叠好衣服,那其他很多任务都可以完成得非常好,未来肯定会解锁越来越多能力。

第二个具身智能跟大模型一样也存在Scaling Law,现在的模型能力主要取决于数据的质量和数量。

目前行业内具身智能的高质量数据还很少,在比较少的情况下已经取得了很不错的效果。而我们非常明确预见到,具身智能数据的质量和数量还会大幅增强、增加,在此基础上,模型能力肯定会变得更强。

《智能涌现》相比AI大模型公司,具身智能大模型公司拿到的融资额要少。是不是做具身智能大模型不怎么烧钱,可以花的少一些?

韩峰涛:融资金额和发展阶段是密切相关的,AI大模型已经发展7、8年了,具身智能大模型才一年多,融资金额肯定不如前者。具身赛道现在融的这些钱是不够的,未来肯定还要再接着融资。

从花钱金额上来说,做具身智能大模型可能不像AI语言大模型花那么多钱。

一方面,AI大模型当初踩的坑、积累的经验,我们可以借鉴学习,比如怎么做工程化、怎么培养人才,这就能省不少钱。另一方面,具身智能需要的算力少因为模型规模小,我们目前规模在10B以内。

就千寻来说,这是我二次创业了,资金使用效率在业内是很高的,我们第一个模型只花了很少的钱,但是取得了不错的效果。

《智能涌现》美国具身智能公司的估值更高,资金更多,要与其竞争,是不是得走性价比路线,像DeepSeek一样?

韩峰涛:是的,从全球竞争来看,中国具身智能企业肯定还是要讲性价比,得用中国相对比较好的工程师团队、供应链团队、工程化技巧,才能追赶。

对于千寻的发展阶段来说,目前我们融资的情况比较乐观,也足够支撑我们技术的快速迭代。

具身智能的未来肯定是在中国。因为中国的硬件、供应链、采集数据工人的工资都更便宜;中国的应用场景非常多。在数采几百几千台的时候,中美可能还能PK一下。

如果我们建设一个1万人、10万人的数据工厂,或者采用众包的方式去采集数据,美国肯定是比不过的。

“无论在商业还是技术上,优秀的具身智能企业一定是软硬件都做的。”

《智能涌现》:你离开珞石机器人,再创业为什么选择了具身智能?

韩峰涛:第一次创业做工业机器人,我觉得是拿着锤子找钉子,我是学机器人控制的,所以上一家公司就是搞机械臂。但这次不是,第二次创业我觉得要回到市场的真实需求,创业的机会来源于哪里,以及市场上需要什么样的产品。

具身这个赛道创业的机会来源于AI的进步,AI语言大模型、图像模型,包括一些视频生成都是在虚拟世界。自然而然,在虚拟世界取得成功之后,AI肯定是要蔓延到物理世界的。所以这次创业的核心推动力还是AI。千寻智能的核心业务就是具身智能大模型。

《智能涌现》千寻会自研机器人硬件吗?

韩峰涛:当然。对于一个软硬一体的产品,只做软件肯定不行。从商业化闭环上来说,行业再往后走的时候,如果只有软件就很难卖出去,没有营收,就没有办法支撑你企业未来的发展。

第二个在技术上,目前我们通过一些网上的视频以及自己的数据工厂的数据来训练模型。但未来模型的进化取决于我们卖出去的产品收集到的、真实的场景里边的数据这些数据会帮助模型持续进化。

如果没有自己的终端硬件产品,就拿不到这些数据。在自动驾驶行业,大家已经看到只做软件的弊端了。

所以无论从商业上还是从技术上,一个成功的或者有潜力的具身智能企业,一定是软硬都做的。

反过来如果一家做机器人本体的公司不做具身智能大模型,它也不知道什么是好的硬件,它可能会做好的零部件,但不知道什么是好的整机。不知道什么样的硬件设计和迭代方向适合具身智能。

千寻智能的机器人本体       来源:作者拍摄

《智能涌现》你怎么看宇树最近这么火,它在很多人看来是家硬件本体公司。

韩峰涛:宇树爆火给偏硬件的公司肯定是带来一波红利。但是,机器人要走向通用和全能,核心不在硬件。

硬件火了之后,大家首先会追问这个机器人能做什么,就会发现具身智能的问题不解决,绝大多数事情还是做不了。稍微冷静下来之后就会发现,机器还是很笨,还得依赖于大脑的突破。

《智能涌现》机器人本体部分,千寻智能见长的是什么?是手还是足?

韩峰涛:本体部分我们是上半身见长。我们的具身模型和硬件都更关注于操作,主要是机械臂和灵巧手这些。

千寻的目标是未来十年让10%的人拥有自己的机器人,我们想让机器人去帮助人干活或者代替人干活,干活其实主要是靠上半身。身体的移动方式对干活有影响,但不关键。

《智能涌现》现在具身智能发展的瓶颈在什么地方?

韩峰涛:我们觉得是人才短缺。高阳之前说过一个观点,三年内人才将成为具身智能关键瓶颈。因为技术和know-how在快速迭代,你必须得找到一流的人才能加快认知迭代和技术迭代的进程。

具身智能赛道处于一个无人区,虽然技术路线大致确定了,但到底将来往哪个方向走,里面还有很多小的点。这需要在最前沿的聪明的、优秀的人才来完成。

回顾深度学习从2012年到现在的发展历程,几乎所有大的进展都是当时在研究这个方向的优秀博士研究出来的等于是高校课题直接促进了产业化的进展。所以对于校招,我们就盯着中国一流的前几个高校的优秀博士,研究方向做计算机和人工智能的。

“具身智能Scaling Law还有很大红利,模型能力将持续提升”

《智能涌现》:具身智能大模型存在一些技术路线的分歧,有的相信端到端模型,有的相信大小脑分层,还有语言系统和感知系统等不同模块,千寻智能采用了什么样的路线?

韩峰涛:我们是没有区分大脑小脑的,就直接一个端到端大模型VLA (Vision Language Action),语言、图像、动作都在里面。

考虑到这个模型要跑在机器人上,端侧的算力有限,如果语言部分太大,运行速度就没那么快,会影响机器人反应速度。我们就需要做个取舍,在机器人端侧放一个小的语言模型,大概3B到7B,我们基本上用开源的已经训练好的语言模型。

模型大小,取决于你需要这个模型对环境的理解有多深。如果机器人干个简单任务,我们就跑端侧的小模型,加上动作这部分,加起来总共是10B以内的VLA模型就行了。

《智能涌现》:我发现现在越来越多具身智能企业开始讲“端到端”了,这已经是行业共识了吗?

韩峰涛:是的,行业的技术路线已经相对收敛了。触发因素是去年10月美国公司PI的新模型,它把叠衣服这件事做到了基本达到实用化的水平,这是个很大的技术进步,是里程碑式的事件。

在PI之前,具身企业的demo(样片)都是一些很简单的抓取。类似叠衣服这种连续的、长程的、对于复杂对象的操作,原来的具身智能一直实现不了。而PI的训练方法,就是端到端大模型VLA。

顺便提一句,PI的两位主要创始人是我们联合创始人高阳的师兄,他们同一个导师。

《智能涌现》:你们对具身智能的物体识别准确度,目前要求高吗?

韩峰涛:看场景要求吧,一般来说,具身智能模型对于识别的精度、准确度要求比自动驾驶要低一些,比如让机器人拿个纸巾,识别错了再抓一次也可以,不会像自动驾驶一样酿成交通事故。当然我们肯定会持续提升它的识别度。

《智能涌现》:你们现在怎么训练具身智能大模型?

韩峰涛:千寻现在训练具身智能大模型,跟训练大语言模型的范式和方法基本是一样的。

先用质量没那么高,但多样性很好的海量数据做预训练,让模型对世界有一些基本认知,但这个阶段直接干活精度还不够,所以需要高质量数据做微调,微调完之后再通过强化学习提高成功率。这个过程对应于大语言模型的预训练、SFT(监督微调) 和RLHF(强化学习)。

《智能涌现》:预训练和微调分别用什么数据?

韩峰涛:预训练用大量的互联网上人类干活的视频,比如YouTube和爱奇艺这些,数据质量可以差一点,但一定要大,多样性一定要好;微调就用高质量数据,我们用的是真实的遥操作数据,是在数采工厂真实采集出来的。

举个学游泳的例子,可以先看视频去了解基础的姿势也就是预训练,再请的游泳教练手把手教学也就是高质量数据微调,最终学会游泳。

《智能涌现》:有的厂商用仿真数据,这类数据质量怎么样?

韩峰涛:每种数据源有自己的优缺点。视频数据量很大但精度不高;遥操作数据精度很高,但量不大。仿真数据的特点是比较易得,但精度不太好。我们也用仿真,把视频和仿真用在预训练。

总体来说,现在没有任何一种单一数据可以支撑大模型的训练。最合理的方案是把不同数据用在不同的训练阶段。

仿真数据对于刚性物体模仿的还可以,适合训练对刚性物体的抓取。但对于柔性物体,比如叠衣服场景,衣服动了怎么变形和运动,仿真数据的可用性不行。

《智能涌现》:有一些厂商,如智元机器人开源了一些数据库,这些数据其他家可以用吗?

韩峰涛:这类数据可以拿来做预训练,但不适合做微调。

在当前阶段,数据质量和硬件是强相关的,别家在他的硬件上采集的数据,在千寻的硬件上不能直接用,因为包括数据采集的频率、位置、精度、末端执行器规格等都不一样。

这也是为什么我说,好的具身智能企业,一定要软硬件都做,因为它是软硬联合优化的。

“具身智能2-3年可以落地应用,但汽车整机厂不是合适场景”

《智能涌现》有些事情传统工业机器人可以做得很好,为什么现在还是用具身机器人来做,比如在特斯拉工厂搬电池。

韩峰涛:原来的工业机器人和现在具身智能的核心差异,在于具身智能有能力理解环境变化并调整动作。但传统工业机器人不可以,它是被编程写死的,只能几年如一日的重复动作。

就搬东西来说,搬运物品的位置、形状发生了变化,传统工业机器人不能自己调整,但具身智能可以。

《智能涌现》特斯拉让人形机器人搬电池,这个场景是真实的需求吗?

韩峰涛:是真实存在的需求。不同产线的锂电池的规格、摆放的姿态、位置可能都不一样,所以工业机器人没法处理。但是商业上不一定算得过来账,人形机器人价格太高,用人工可能效率更高、更便宜。

《智能涌现》前段时间有个很热的话题:人形机器人进汽车工厂。你怎么看人形机器人进汽车工厂?

韩峰涛:首先从商业化这个角度,汽车主机厂(即整车厂)其实不是一个特别好的客户,因为原来主机厂的自动化程度已经非常高了,那里面虽然说有不少工人,但工人操作复杂,用机器人或者自动化非常难替代的,不适合机器人早期落地。

相反,汽车零件厂,例如电池厂是更好的落地场景,用人更多,工序简单。

具身智能产业才刚刚开始,人形机器人硬件也刚刚开始,两个非常早期的技术融合一块,去干一个非常复杂的事,这非常难。所以汽车主机厂不是很好的落地场景,马斯克自己造车,所以机器人在自己工厂用,但国内很多人跟随这么做,我觉得是没搞明白。

《智能涌现》有机构提出了具身机器人落地的先后顺序,认为技术难度上to G小于to B小于to C,你怎么看?

韩峰涛:从技术难度上确实是,G端政府可能更多是支持行业和企业发展,给一些示范项目,可能会选一些相对比较封闭的场景,对安全性要求没那么高。

To B的工厂场景也是相对固定,但to C的场景因为每家的装修都不一样,环境更加复杂,所以难度也更高。

但是从市场规模来说,C端大于B端大于G端,所以在选商业化目标的时候,要综合来看,平衡好落地难度和市场空间。

《智能涌现》具身大模型成熟并且可用之后,通用人形机器人是不是就可以实现了?硬件上还有哪些卡点?

韩峰涛:对于当前来说,比较成为卡点的有灵巧手、双足的高动态性能、外界抗扰能力、续航能力,然后一些力传感器、数据传感器、电子皮肤这些其实都是卡点。而且这些卡点都不是AI进步可以解决的。

人形机器人要向上突破,是卡在材料、电机功率密度等一些基础学科问题上。具身智能向上突破,是卡在模型能力上。

封面来源企业官方

👇🏻 AI👇🏻
36AI
👇🏻  👇🏻



(文:智能涌现)

欢迎分享

发表评论