王兴兴回应比赛风波:挣到钱了,但现在的机器人别指望它能干活

整理 | 华卫

6 月 6 日,在刚刚开幕的 2025 北京智源大会上,智源研究院邀请宇树科技 CEO 王兴兴、北京人形机器人创新中心总经理熊友军、银河通用创始人兼 CTO 王鹤、穹彻智能联合创始人卢策吾及 Physical Intelligence 联合创始人兼 CEO Karol Hausman 到场,由智源研究院院长王仲远主持,围绕具身智能技术的进化展开了一次深度探讨。

开聊前,几位当前国内外热门人形机器人企业的领导者,先纷纷分享了近期取得的进展,并挨个领着自家机器人上台表演了一番。

对话中,他们针对近期火热的机器人赛事、举办这些活动的意义、机器人的构型以及主流的 VLA 技术路径落地与泛化的瓶颈发表了各自不同的观点。

“终极目标是希望机器人是干活的,无论是家里还是工厂。”王兴兴表示,在终极目标没有实现之前,先参加一些表演和格斗比赛来给大家展示机器人情况,且产生了一部分的商业价值。王鹤则期待,能用赛事去引领机器人形成有价值的、可落地的技能,把生态给转起来。

对于机器人的最终形态,熊友军出于多角度的考虑认为,人形机器人是最好的一种选择。王兴兴则给出了这样的预测:未来机器人的呈现会千奇百怪,种类和形式可能会比现在多 100 倍。

下面是本次圆桌对话的完整版本,AI 前线在不改变原意的基础上进行了整理、翻译和编辑。

各家曝最新进展

王仲远: 兴兴,咱们第一次见面是去年 4 月份,我们去宇树交流,我对于宇树机器人印象最深刻的一点就是,不需要使用移动吊架就能够随时展示。在过去这一年里,宇树科技也有非常多的变化,包括今年春晚宇树 16 台 H1 机器人所表演的《秧 BOT》、前几天宇树 G1 机器人在 CMG 世界机器人大赛的格斗擂台上获得冠军。我听说今天咱们也把这个冠军机器人带到了现场,是吗?请介绍一下。

王兴兴:大家好,非常感谢参加此次活动,我们也带来了机器人,在这里给大家做一下演示。这是我们目前最新的 G1,前段时间也参加了格斗比赛,让它展示一些动作。

我们过去无论是春晚上的表演还是格斗比赛,我们希望给大家真正展示一下当前全球机器人发展的情况,并且也能带动整个机器人行业的发展。

大家觉得目前机器人,相对来说还不能直接去家里干活和工厂干活,这是全球都面临的问题。我们希望机器人真正去干活,但在真正干活之前,我们已经达到的技术成果,也是希望可以做更多的商业化拓展和尝试,所以我们做了这些事情。

我相信机器人格斗在今年和明年,会成为全球受欢迎的体育赛事。后面大家有兴趣,可以来我们公司体验和玩一下,这是非常激动人心的事情。

王仲远: 谢谢兴兴,机器人一上台表演,立刻调动起了现场的气氛。除了这台冠军机器人外,北京人形机器人创新中心也有一个冠军机器人。在北京举办的半马比赛中,天工也获得了冠军。听说今天带来了天工升级版天工 2.0,请分享一下天工夺冠背后的故事,也介绍一下天工 2.0 有哪些升级。

熊友军: 我是来自北京人形机器人创新中心总经理的熊友军,今天是天工 6.0,这也是一个开源开放的平台。天工 6.0 在 1.0 基础上做了更新,天工 1.0 在半程马拉松 2 小时 40 分的成绩跑完马拉松,被证明是能跑的机器人。天工 2.0,我们希望它好用,能做更多的事情,所以升级是在于上肢,有更多的自由度、灵巧手和负重能力,今天也会在现场展示一些能力。

机器人:大家好,我是来自北京人形机器人创新中心的天工 2.0,很高兴见到大家。

熊友军:天工,给大家准备一些茶点吧

机器人:好的,没问题。

天工在参加马拉松之后,我们进行了系统性更新。这个升级是体系化的能力,我们在这个上面有四个方面的平台能力的升级。一是我们一直在建设的硬件平台,我们主打场地、草地、沙地、秋林、石子,对各种路面的适应能力,它是最能跑的。现在的升级,让它能在工厂和各种危险和有伤害的环境去完成一些事情,这是硬件方面的升级。

更多的升级是在大脑软件方面,我们在今年 3 月发布了第一个通用的具身智能体慧智开悟,这是一脑多机、一脑多能的平台,包括具身智能的大脑和小脑。大脑主要负责人机交互、环境感知、意图识别、问路规划,小脑负责运动和执行能力,且把这个执行结果反馈给大脑,完成一个闭环。这是第二个方面。

第三个方面,训练具身智能体。我们构建了一个国内大型数据采集和机器人训练中心,构建了 20 多个场景,是虚实结合的数据采集平台,并且在上面也构建了一些数据的采集处理和服务、人才培养的一整套体系,同时不断迭代和升级慧智开悟的具身智能化。为了保证机器人的稳定可靠性,我们也在牵头建设北京的中试平台。

王仲远: 谢谢友军,王鹤老师更是智源好朋友,2021 年王老师从斯坦福回到北大任教,现在是智源研究中心的负责人。2023 年王老师创立了北京银河通用机器人有限公司,今年非常恭喜王老师成为了 MIT 主办方。王老师做的银河通用机器人模型,最新有什么新的进展?

王鹤: 谢谢王仲远博士的介绍。今年是银河通用机器人第二次亮相智源大会,去年在智源大会我们展示了盒装物体在货架上的吸取,今天用 VLA 技术,也是刚刚 Physical Intelligenc 提到的端到端具身大模型打造了适用性更强,更贴近一般商超的货架场景。下面我也展示一下跟 Galbot 模型的互动。

王鹤:我中午又饿又热,Gbot 给我搞点吃的和喝的。

机器人:根据您提到的,为您推荐安慕希酸奶和果粒爽果冻,您想要哪个?

王鹤:成年人不做选择,我都要。

我们在现场用的是基于自研端到端大模型的轮式底盘人形机器人,能够取下货架琳琅满目的各种各样货品,这个模型是闭环的,拿的过程中你抢,它也会抓,它没办法在非常密集的货架上规避碰撞。我们的技术特点是,背后的训练数据主要是合成数据,价格非常低廉,是可以扩增的。

王仲远: 谢谢王老师。卢老师,去年 3 月份时我们在上海交大第一次见面,当时我印象很深,您所展示的叠衣服、刮胡子,基于力反馈的具身智能系统非常厉害,不知道最近有没有什么新的进展?

卢策吾: 从产品的角度来讲,去年发布了穹彻大脑 V1 版本,马上在 7 月份会发布 V2 版本。这里体现了对于世界物理的理解和交互。

为什么会有力反馈呢?在做很多动作时,其实人都是下意识的,这对于什么样经济价值比较高的场景会有用呢?需要复杂动态的接触和操作。比如刮胡子就很典型,机器人抓取之后,基本固定不动了,但是要连续不停地跟皮肤接触,那力气大一点会刮伤皮肤,力气小一点会刮不干净,所以它适用于鲁棒性极高、要模仿人类下意识的环境。

刮胡子有点炫技,其实我们很早已经把它应用到实际场景中了。我们在很多食品加工、处理行业里已经批量化落地了,可能你们吃的食品是我们机器人在背后做的。食品是高密度、高持续的接触,同时对于物理的理解会有更大的难度,但是拓展到生活场景是非常必要的,比如将来可以照顾人、帮你擦脸,有很多跟人的交互,应用到生活场景也是必需的,所以我们的模型就用了力和位置,也是全球唯一用力和位置反馈的大模型。

王仲远: 谢谢卢老师。Karol Hausman,Physical Intelligence 在中国是非常受欢迎和被关注的,每次只要发布模型或视频都有大量的转发,包括π0、π0.5、Hi Robot 都在中国得到了大量的关注。您刚才有没有看到现场机器人的表演,包括卢老师所展示的精细化的操作,也想请您介绍一下 Physical Intelligence 最新的具身机器人和具身模型的能力有什么新的进展?

Karol Hausman: 非常感谢您提的这个问题,我也意识到这一点。确实看到很多人都比较关注π和 Physical Intelligence,我们也愿意给大家提供更多的模型,这样能够让全球的机器人承担更多有效的任务。关于π0.5 模型,这是我们感到非常骄傲的地方,之前我们认为很难让机器人在陌生的环境下完成相关的任务,现在发现这是大家都面临的挑战。

家庭是非常复杂的环境,每个人的家庭都不一样,如果能够把机器人带到一个之前从来没有去过的家庭,之后来完成任务,这将是非常重要的突破。因为每个工厂都比较类似,但家庭场景各不相同,所以我们开始关注要有多少多元化的数据才能够帮助机器人在陌生环境下完成任务。

我们有上百个不同的家庭环境,生成了上百个不同家庭的数据。其实,机器人并不是每次都会完美地完成任务,也会有这样或那样的失误,但确实展现出非常大的潜力,机器人并不需要考虑数据集的多元性才能实现最终的泛化。我们现在还处在整个研究的初级阶段,但是这个研究领域确实有很大的前景。

机器人赛事是秀肌肉 or 验证场?

王仲远: 今年具身智能比较破圈,一个主要原因是近期各种各样的机器人赛事,比如马拉松、格斗比赛以及今年 8 月将在北京举办的世界人形机器人运动会,我想听听各位朋友对于这些赛事活动怎么看?它们是技术的验证场还是秀肌肉的表演?有没有可能拉高公众对于机器人能力的预期?

王兴兴: 从今年 1 月的春晚到格斗比赛,我觉得最大的点是,确实给大众提供了一个很好的展示平台,并且更早地让大家接触到了目前机器人的发展。但因为比赛很多,有些企业参加,有些企业没参加,这是不可避免的一件事,每家企业还有各自的特点。

像我们的话,终极目标还是希望机器人是干活的,无论是家里还是工厂。但 如果让一个人体机器人或者智能机器马上去家里干活,最近几年还是不太现实的。大家可能觉得我们公司的机器人就在做跳舞或者打比赛格斗这类事情,实际上,我们的真正理念是希望人形机器人可以做各种动作,无论是跳舞、格斗,还是在家端茶倒水、洗衣做饭,都是全身动作的一部分。

所以我一直相信的是,当 AI 技术,包括具身智能发展到一定阶段时,一个足够智能的家用机器人肯定是可以做跳舞、打格斗这类事情的。我们的目标一直是希望通过 AI 技术让机器人能做各种全身动作,然后来实现终极目标,解放人类的生产力,尤其是去从事一些辛苦的工作。但在终极目标没有实现之前,我们先参加一些表演和格斗比赛来给大家展示下机器人的情况,并且产生一部分的商业价值。像今年上半年,人形机器人的租赁市场比较火爆,已经带来了一些产业价值。

熊友军: 我觉得举办机器人比赛非常有意义,尤其是即将在北京鸟巢举办的世界人形机器人运动会,可以从以下几个方面来说:

第一,它是一个机器人知识普及的盛会,让普罗大众能够对机器人现在的发展状况、技术水平有比较全面的了解。据我们所知,这次在鸟巢举行的机器人比赛,会包含短跑、长跑、障碍赛、接力赛等田径以及足球、舞蹈等,都是大家喜闻乐见、非常愿意看的,看的过程中就会潜移默化地对机器人知识发展状况有比较深的了解,普及了科技水平。

第二,它也是一个非常好的机器人技术训练场,对提升机器人技术有很大的帮助。很多比赛场景来自人类的真实生活,之前在实验室里面大多都是我们自己构建的场景,但是这个比赛据我所知有很多实际场景,包括工厂的物流搬运、医院的医药分拣和送药以及一些酒店服务型场景。这些场景都是具体的企业提出来的,我觉得非常符合机器人的发展方向,毕竟我们希望机器人真正地走入我们生活、服务人类。

第三,比赛也是一个机器人潜在客户和机器人企业的沟通桥梁,有可能会促成机器人产业化的加速,或者加速在真实场景里面做试点应用。

王仲远:Karol,我不知道你有没有关注到中国的这些机器人比赛,海外有没有类似的机器人比赛?你怎么看?

Karol Hausman: 它们远不如在中国那么受欢迎。这是一个非常有趣的发展。我知道一些在国外举办的比赛,比如 “机器人杯”(Robot Cup)和类似的家庭版,也有一些学术竞赛,但我认为这些赛事的规模还无法与中国相比。我很期待看到这一情况随着时间的推移将如何发展。

王仲远: 我们经常讲机器人可以通过比赛不断地展示一些极限能力,但我们也更期望机器人能够帮我们解决实际问题,进到工厂或者家庭。王鹤老师和卢策吾老师,你们做的很多产品都是非常落地的,想听听你们关于比赛和落地之间的一些看法。

王鹤: 今天我们谈具身智能有一个当下的目标,就是一定要推动具身智能的产业化。虽然我们看到了很多炫酷的技能,但是我们一定要反思:这样的技能在新的环境里、在面对新的物品下、在用户非常挑剔、需要成功率接近 100% 的情况下,能不能成功?

这也是银河通用和智源的联合团队在做这件事情时的一个思考:先把最重要的技能打通,主要就是指 mobile pick and place。其实我们刚刚看到π在家庭里做的事情,也是通过 navigation 从地面上去 pick 的一些行为组合而成。

那么我们关注的是,在一般性的货架上,不论是在超市还是工厂料库区、外卖前置仓,如果我们能用人形机器人在那里 24 小时地服务,那么就可以成为具身智能真正走向产业化、真正服务人民、创造生产力的一个开始。这也是我一直谈的,我们要推动人形机器人生产力时刻的到来。

一个好消息是,银河通用已经在北京开了 7 家无人药店, 24 小时由我们的人形机器人在里面捡药、对接骑手,为很多夜间急需用药的患者送去了温暖,同时又不必把一个人 24 小时地锁在房间里头,其实也很难招聘到这样的员工。今年年底,我们会在北京、上海、深圳一共开 100 家无人药店。

我们今天展示的是下一步,相信以后大家在超市下订单、在车厂配料,背后会是我们的人形机器人当家作主。我希望这些能跟后续的赛事在操作级别上对接起来,用赛事去引领这些有价值的、可落地的技能形成,不断地把生态给转起来。

卢策吾: 同意王老师的观点,赛事当然是很好的,也能看到机器人的性能。这是一个很好的起点,下一步我们更能看到机器人产生价值、能干活的生产力比赛,所以这点上非常同意王老师。

我们在逐步把机器人的技能往上提高,穹彻也在把一些大模型用到食品、食材加工等各种场景里去,特别是物理世界高持续接触的有力反馈模型。以后如果有更多技能比赛,或许我们能够看到更多“劳动最光荣”的表现。

哪种机器人载体最好?

王仲远: 关于机器人构型的问题,5 月下旬清华大学举办的一场学术会议上,清华大学计算机系张钹院士表示,人形机器人不是具身智能和 AGI 的最佳路径,走向通用的机器人硬件要多样性、软件要通用性。想请教一下兴兴和友军,你们都在做人形机器人,对这样的观点有什么评价?

王兴兴: 过去几年我参加一些活动公开说过好几次,其实我一直不坚持说一定要做人形这件事情,对于我们公司来说,做机器狗、做人形机器人是相对来说比较顺理成章的一件事情。尤其对于用“腿”来说,用轮子、底盘等都是非常实用的。

但为什么大家现在喜欢用人形或者上半身保持人的样子,主要因为现在的 AI 大部分是基于人的数据采集来做训练,上半身保持跟人的动作相对一致,数据采集会方便很多,也方便整个 AI 来做训练。包括跳舞或者格斗比赛,说实在的如果做成别的样子,基本上就没办法做这些事。

我相信,未来尤其在 AGI 或者真正的通用 AI 发生以后,机器人的呈现会非常千奇百怪,无论是工厂里干活的、大的小的、医疗的,我觉得种类和形式会比现在还要多非常多倍,甚至可能多 100 倍。但在当下,由于目前的 AI 都以数据驱动,长得像人的 AI 机器人在训练、落地各方面还是会占很大的优势。

熊友军: 我同意王兴兴的说法,现在具身智能发展的载体或者形式确实是多种多样的,不一定局限于人形,人形只是具身智能里一个比较好的载体。但是我比较认可,人形机器人应该是具身智能研究的一个最佳的载体,我主要是从未来的市场容量这方面来考虑的。

今天大家说机器人可以不一定像人,它也可以是士卒、轮式、履带式等各种各样的形式,我觉得都没有问题。但从市场应用情况来看,以后机器人最多的市场应该是走入商用服务场景和走入家庭的。今天工厂里的应用场景只是开胃小菜,人形机器人的市场容量应该比其他机器人的体量要大。这是一方面。

第二个方面就是从人机交互的感觉来看,机器人以后走入家庭,成为我们生活的伙伴、朋友甚至是爱人都有可能,所以在人机交互和被人接受方面,人形机器人有非常好的优势。

第三,我们的环境大部分都是为人类设计的,人形机器人在部署、适应环境的过程中是非常便利的,方便使用我们的工具,不需要做太多的改造,否则我们可能为了部署还要去改造环境。

从这几个角度来说,人形机器人应该是最好的一种选择。我明白大家的担心,现在可能成本、技术不占优势,但放在比较长的历史角度来看,我坚持人形机器人是一个比较好的载体。

今天的 VLA 该去突破什么?

王仲远: 在无人驾驶领域, VLA 现在已经成为一个很主流的解决方案,但毕竟无人驾驶的操作空间是相对有限的,机器人面临的环境和实际的 action 数量非常多。你们对于 VLA 的泛化性怎么看?

王鹤: 自动驾驶验证了一件事情,就是端到端的方案有更好的扩展性,能够通过数据去真正地驱动模型,而不是靠无穷无尽的规则。比如先检测出来车的三维包围盒,再基于这些包围盒想下一步该怎么走,最后规划出轨迹以后,再交给控制。这条路其实自动驾驶走了很多年,但是现在铺开的、在全国各地都能开的车,不是通过模块化的,而是端到端的。

从这个角度讲, VLA 的意义在于什么呢?它是视觉观测最主要的信息来源,你可以给它下达任何自然语言命令,最终模型端到端输出的动作不经过任何中间产物。从端到端的角度来讲,它能够真正充分地吸收数据背后的知识,让它发挥出最大的性能,而不受制于模块化方案的中间阶段错误、级联误差和要写无穷无尽的规则兜底等问题。

今天的 VLA 应当说是具身智能的一个研究热点,但针对 VLA 具体究竟要突破什么?我相信有不同的观点。有些人认为,VLA 应该把人类能做的一切事情都快速地做了,然后形成一个基座模型。从这个角度上讲,我觉得有点太着急了,人类其实除视觉输入之外还有力觉、触觉、嗅觉、味觉、温觉和听觉,所以 VLA 只能是一个起点。

要真想做到人类级别,具身智能只能不断地融合新的模态,那么 VOA 现在最适合干什么呢?我认为是移动、抓取和放置。这几个技能基本上以视觉为主,末端再加一个触觉或力觉的传感器就能够很好地执行,而且它面对的很多任务在工业、商业服务里,会有非常广泛的应用。如果我们能把这样的一个 VLA 先做好,在各种场景里不需要 finetune 就部署进去,我觉得届时我们将会见证具身智能真正第一次真正高潮的到来。

卢策吾: VLA 确实是很火。这个东西的本质就是: V- 理解世界, L- 沟通人类, A- 改变世界。我觉得这是集合了机器人几件要干的事情,而且这里面的“L”很妙,因为语言是一个粘合剂,相当于各种高层语义都能从数据连接在一起。

我跟王老师的观点很像,VLA 是有很好的扩展性,但它现在有了很大的限制,我们还是要去推进。这样的情况下,我们要逐步要落地,但我们也会有“星辰大海”,想把它推到通用智能。那面临的一个很大问题就是:如果想要做到通用,它的空间就要很大。和无人车不一样,无人车就两个决策维度,而且不用碰撞和接触、场景也相对固定,所以它整个的空间会比较小。如果做通用的情况下,那就得压缩它的 VLA,压缩它的不确定性,就相当于 VLA 是个火锅底料,现在只能清汤寡水,只能够服务一部分人。服务更多人我们要不停地在里面有加东西,本质是增加更多额外的信息,使其更加 powerful,而且能够兼容在这个框架里面加更多的信息,在这样的一个端对端的模型里面压缩它的空间。

压缩空间有很多方式,穹彻一直在做的就是用力反馈,因为很多时候人是下意识不用动脑,比如你感觉擦桌子是不用动脑的,但其实它不用每毫秒去计算,而且有了力反馈之后它的稳定性很高,如果你用 VLA 没有加力反馈的话,它看起来是可以的,但存在鲁棒性问题。加了力反馈之后,很多时候把空间压缩了。还有我们可以在做的事情,就是对于物理世界的理解,因为其实你看到的视觉是偷偷在理解整个世界,那么我们如果能够更好地理解这个世界,那是不是能够进一步地压缩空间?

我们在第二版的大脑里面又加了很多的东西,可能会在下个月发布。比如我们进一步压缩空间的话,会有一个数字基因的东西,因为仿真合成很重要,产生数据资产很关键,各种操作仿真数据产生很好的数据模型,力反馈其实又带来新的模型,其实一步一步再压缩,会使得数据量需求大大下降。因为这里面不确定的地方是,那么大的空间究竟有多少数据量去 fitting 它,所以找到好的模态,压缩它的空间,找到聪明的更加理解世界的方式把它融到里面去,VLA 才能逐步推进。当然我们也很期待这样一步一步推进到它的整个通用拐点。

王仲远:Karol,跨本体的 VLA 现在在实践过程中有没有什么样的瓶颈是绕不过去的,抑或我们等待就是时间和数据的规模呢?

Karol Hausman: 确实还是有瓶颈存在的,最大的瓶颈是现在这个模型有一些完成的并不是我们需要的,我想应该有一些算法的提升,这是必需的。因为现在数据是海量、无尽的,要使用现在的算法来运用这些无尽的数据,所以我们的算法需要提升和改善,并且也需要新的技术,这些是我们现在正在做的,也是我们正在解决的。

如果你几个月前问我,我会说最大的瓶颈是通用化。但鉴于我们已经分享了 π5,我相信我们已经掌握了如何让它变得更好的方法。答案主要来自数据。但说到性能,我认为更多的是算法问题,而不是数据问题。

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅欢迎扫码关注我的微信视频号~


今日荐文

天塌了,Claude 全面断供Windsurf!CEO喊冤控诉也挡不住开发者退订,祸起OpenAI收购?

0粉丝狂卷数十亿播放,靠AI流量欺诈获利近亿!网友:这“刑”得离谱

被高薪吸引却遭愚弄!科学家怒曝AI科研黑幕:多为个人“捞金”,DeepMind百万成果是“垃圾”

新存1000万,为客户子女提供实习机会?字节等回应;宇树更名,王兴兴曾称或赴港上市;韦神新成果正式命名“韦东奕定律” | AI周报

Redis 之父:哪怕被喷我也得说,AI 远远落后于人类程序员!开发者跟评:用大模型气得我自己写代码都有劲儿了

你也「在看」吗?👇

(文:AI前线)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往