伯牙智能创始人兼CEO刘欣:灵巧手重塑具身智能|甲子引力X

灵巧手要学习不完美数据,才能更像人类。


2024年4月28日,中国科技产业智库「甲子光年」在上海·闵行马桥工业智能中心成功举办「AI共潮生—2025甲子引力X科技产业新风向」大会。


此次大会上,人工智能领域的多位行业大咖、专家学者、投资人及创业者们汇聚一堂,共同探讨中国AI产业的新趋势、新机遇、新变化和新未来。


其中,伯牙智能创始人兼CEO刘欣就AGI时代AI技术的落地场景应用进行了细致的剖析和分享,并以“灵巧手重塑具身智能”为主体展开了分享。


刘欣认为,AI技术在物理世界要想真正实现赋能,必须要有一个具体的交互硬件,这个硬件就是灵巧手。同时,具身智能产品上的自主移动、智能思考以及大模型的应用等,都已经比较成熟,但灵巧操作仍处在发展初期。


灵巧操作在硬件和软件上都有诸多挑战,硬件的难点在于灵巧手产品对高自由度等性能需求和空间限制的矛盾,以及柔性化控制单元的融合;软件难度则来自于控制算法既要泛化能力也要精准度,以及训练数据的获取。总的来说,刘欣的演讲向与会人员展示了其对灵巧手发展趋势和具体产品设计领域的思考和判断,对于数据及触觉传感能力的反共识观点,也给具身智能行业带来了新的思考。


以下是伯牙智能创始人兼CEO刘欣演讲实录,「甲子光年」整理删改:




1.AI交互问题还没有被很好地解决


大家下午好,今天非常开心现场和大家分享一下我们过去做的事情。我们公司是去年7月份成立的,那时整个具身智能,或者说整个人形机器人产业都是非常火爆的,但是我们选择了做灵巧手以及灵巧操作这个更细分的赛道。


过去一段时间,大家已经被各种机器人的视频刷屏,有扭秧歌的,有跳舞的,前两周北京还搞了第一届人形机器人马拉松大赛。但是这里面有很多机器人,甚至连手都没有,反而是像机器猫一样的一个个圆球或爪子。


我认为在AGI时代,AI想在物理世界里面发挥实际作用,还需要一点点帮助,用什么来帮助?一双真正的手,像人类一样灵巧的手。手对于人类来说非常重要,可以说是和人的大脑一起进化结果。这里给大家看一个很经典的图:皮质小人。他讲的是在大脑皮层负责感知和运动的不同部位的映射,可以很直观地看出来手对人非常重要,整个图片里手和五官占的面积非常大。


这些所有的人需要在大脑和小脑里面处理的能力,放到机器人、具身智能里面一样需要。一般来说,具身智能需要的这些基础能力被分成了四大类,这四类是相辅相成的,中间会有一些交织和协同,并不孤立存在。


这里面有一些技术,在过去经过了十几年的高速发展,相对来说比较成熟。比如自主移动、大模型、空间智能等,这些技术虽然还有待进一步优化,但基本上不会出现特别大的瓶颈,不管是用传统的方式还是端到端的方式,都能够被基本解决。


但还有一件事情始终困扰着大家,那就是真正让机器人走向工业、走向服务、走向家庭的基于灵巧手的灵巧操作,不管是在学术界还是工业界,都没有被很好突破和解决。




2.灵巧手的研发难点


我们认为灵巧操作是机器人进化出具身智能的关键环节。灵巧操作为什么这么难?首先要做一个灵巧手的硬件,这个硬件本身非常挑战了。马斯克曾经提到,在整个擎天柱的工程开发量里,有接近一半工作量都是在手部。为什么这么难?因为人手有27块骨骼,23个自由度,在漫长的进化里跟大脑、小脑形成了协同,他是非常复杂的软硬结合的部件。


我们做机器人,首先想的是要在手掌这么小的空间里,塞下这么高的自由度,在工程上会产生很多的矛盾。比方说你想要很好的性能,需要灵巧手的力量、速度都比较理想,就需要比较大的电机,但使用了大的电机会发现灵巧手变得非常沉、非常大。如果让手变得更小巧,用更小的电机,力量和性能就会打折扣。电机、减速机做小之后也非常容易损坏。


世界上有没有做的比较好的灵巧手呢?答案是有的,就是OpenAI使用的这个灵巧手(Shadow Dexterous Hand),这个灵巧手在行业里非常有名,它有24个活动关节,20个主动自由度,非常接近人类。OpenAI在2018年的时候用shadow做了一个非常有名的研究项目,用后者的灵巧手来转一个方块,不是转魔方,仅仅是把方块转到一个指定的方向就算成功。


OpenAI在整个实验过程当中用了两个非常经典的方式,一个是用强化学习来制定手指的运动策略。另一个用了RNN来进行5个手指的位置评估和方块的方向的预测,整个过程取得了不错的结果。这已经是将近7年前的事情了。


OpenAI做的这个实验给我们带来了一个启示,即AI非常倾向于使用机器手的小拇指进行操作,比如用大拇指+小拇指一起转方块,而同样的动作人类更习惯用拇指和食指来做,为什么呢?因为这个机器手本身设计的比较灵巧,对于强化学习算法来说,它更愿意去尝试、去形成不同的操作习惯。这就是我们为什么一定要做带有小拇指的五指灵巧手的产品。


不仅如此,随机策略产生的一定程度的泛化,还能让我们用强化学习解决灵巧手的操作问题的时候,不一定非要模仿人类,也一样可以很好地完成动作,同时还有一个点很关键,好的系统工程和好的算法一样重要,如果只有算法,而硬件和软件工程做的不够好,那么好的想法也得不到实现,因此把系统工程做好是关键的基础。




3.两条反共识结论


有两条结论是反共识的,第一条是在OpenAI的实验里面,机器手是支持触觉传感器的,但他们没有用,他们认为这是没有必要的,但我必须要讲的是,在今天我们需要面对的复杂落地场景下,这一句话不再正确了。当时OpenAI的实验设计比较简单,不需要考虑机器手持握方块的软硬,以及是不是会被捏坏,它只要转到相应的方向就可以了。


但是今天我们在实际场景里可能会有各种各样的物体,硬的、软的,比如需要灵巧手去处理一些食材,用力太大会就对物体造成损坏。所以在今天,灵巧手的设计必须要把触觉当做一个很重要的能力去构建。


还有一条,OpenAI做完实验后得出的结论,是真实世界的数据并没有帮助他们训练出更优策略,这是为什么呢?在当时条件之下,他们发现这些数据质量并不好,比如用视觉来跟踪位置标签,甚至是动作捕捉系统来去做位置跟踪,但这些标签的识别计算有延迟、测量精度有误差,只要稍微改变一下环境,之前数据的配置就不可用了。


但我认为,质量不好的数据,也很重要。因为只用质量好的数据来训练具身智能,会让其不知道如何处理意外情况。在人类环境里,各种条件并不完美,我们需要让机器人和人一样学习如何处理不完美的数据。




4.伯牙智能灵巧手产品


有了这些思考,我们就要重新构建一个灵巧操作系统,我们需要去推倒重来。这个过程就想过去十年大家去讲软件定义汽车一样,首先定义你需要什么样的数据,再去逆推你的硬件是怎么设计的,然后构建你需要的传感器,并且构建整个拓扑,让数据和传感器达到算法要求。


我们做灵巧手也要拥抱最新的硬件生态、接口、软件。经过迭代和打磨,我们的第一款产品高山D22Pro很快就可以小批量试制,预计在今年下半年就会公开发售。


这里用我们的产品和Shadow进行一个对比。从硬件层面来讲,我们删减了两个不太重要的自由度,但是我们依然达到了22个自由度,可以完美复刻人类手部的动作;我们的动作速度是Shadow的3倍,简单来说如果我们伸开手做握拳的动作再恢复,一秒钟之内可以做一内就是1Hz,我们能够做三次,基本上达到了人类的能力;我们在重量方面也做了减轻,Shadow是4.3公斤,我们能够做到1.5公斤以下。


今天市场上已经有很多灵巧手产品,但低自由度的机器手不能叫做灵巧手。所以可以说我们是目前唯一一个能够和Shadow以及包括特斯拉正在研发的下一代灵巧手去做对标的产品,同时我们还提供了不同的颜色配置。


有了好的硬件作为基础之后,软件算法也是非常重要的。今天整个具身智能行业有一股VLA热潮,但我们觉得VLA目前首先解决的问题是零样本的泛化,第二解决的问题是用自然语言进行人机交互,但VLA并没有很好地解决任务成功率和精准度的问题。所以我们今天也提出了自己的一套架构,我们把VLA和强化学习以及传统的经典控制算法绑定在一起,既可以有很好的泛化能力,也可以达到很好的精度。


我们还有一个很重要的产品在研发,是一个同样有22个自由度的但零电机的版本。这是我们的首席科学家张世武教授带领团队研发了很多年的成果,用SMA(形状记忆合金)代替电机模组,可以理解为是一种人工肌肉。这个最新版本的灵巧手的优点是大功重比,也就是说他可以自身很轻的情况下提动很重的物体,已经能够满足绝大部分的应用场景了,成本也可以很低,而且形态更仿生。


我们也会更积极地拥抱仿生结构。在传统机器人的控制层面,大家是追求刚度而厌恶柔性的,但我们今天可以有机会在AGI时代解锁新的技术树,把柔性的执行单元代入到具身智能行业里面来。


我们的技术研发迭代很快,因为我们有两个强大的后盾:一个是中科大的人形机器人研究院,另一个是哈工大深圳校区的nROS-LAB 。我们会继续努力,给大家推出更多的产品,谢谢。




(文:甲子光年)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往