迎接具身智能落地应用的星辰大海|甲子引力

用技术降低具身智能机器人的交付成本。

12月10-11日,由「甲子光年」主办的“万千流变,一如既往”2024甲子引力年终盛典在北京中关村国家自主创新示范区展示交易中心召开。


在12月11日下午举行的《终端革命:具身智能落地场景选择与前景》圆桌论坛中,思谋科技联合创始人李睿宇、讯飞机器人超脑平台总经理刘可为、微亿智造董事长、CEO张志琦、帝尔博格创始人&CEO张本、梅卡曼德机器人创始人兼CEO邵天兰,与主持人蓝驰创投合伙人曹巍共同探讨了具身智能机器人的最新技术、商业化交付周期和高质量数据等问题。


蓝驰创投合伙人曹巍


在“什么是对行业影响最大的技术”这一问题的探讨中,李睿宇介绍了思谋科技的工业大模型IndustryGPT在落地层面的探索,他表示,不管是软件还是硬件的控制,IndustryGPT工业大模型都能根据客户的需求迅速调整出合适的解决方案。


思谋科技联合创始人李睿宇


刘可为从科大讯飞的基本盘——语音的角度谈了具身智能感知技术的重要性。他表示,具身感知是具身的第一环,科大讯飞最新推出的多模态语音增强技术有望在未来解决很大一部分具身感知和人机交互的问题。


讯飞机器人超脑平台总经理刘可为


张志琦强调,工业场景需优先解决设备能否被有效利用的问题。微亿智造致力于通过“手-眼-脑-云”技术创新降低交付成本,并强调真实数据对模型训练的重要性及产线工人经验在模型采集、训练及泛化中的辅助作用,这对加速具身智能工业机器人的应用与迭代至关重要。


微亿智造董事长、CEO张志琦


张本从工业制造领域的需求出发,谈了场景、环境、工艺等数据的泛化对智能机器人的重要性,同时他指出在柔性生产中,除了对控制精度的调整,提高单个或单批件的控制效率也很重要。


帝尓博格创始人&CEO张本


邵天兰则表示当下很多技术还没有收敛,让机器人具有常识是当下具身智能业界非常重要的方向。因此梅卡曼德在训练具身大模型过程中会适当增加一些不可控的场景,让机器人学会“更好地应对”。


梅卡曼德机器人创始人兼CEO邵天兰


商业侧的落地和交付一直是具身智能机器人的一个痛点。关于如何实现更好的交付,李睿宇表示,思谋科技为客户提供的不是简单定义的智能机器人,而是一套完整的检测工作站或者标准化检测设备,客户更看重的是硬件和点位控制的准确度以及充足的项目经验,具身智能更多是锦上添花的作用。


刘可为从科大讯飞的实践出发,提出了标准化交付的三个要点:需要从单能力交付转变为全链路交付、从提供纯软件的SDK解决方案转变成提供软硬一体的解决方案、从纯做项目转变为做参考设计,才能更好地实现标准化的商业交付。


张志琦表示微亿智造一直在走的一条路是“用技术降低交付成本”,比如他们用自动化点位调整软件缩短了点位调整时间,用大模型缩短了项目爬坡时间。


张本表示,由于帝尔博格的产品是以工作站的形式交付的,因此软硬件是否标准化、模块化是影响交付周期的关键因素;未来他们希望能用算法提高模型的泛化能力,进一步缩短交付周期。


邵天兰则指出了行业的一大问题——现在很多机器人企业在做的事情是“teach and replay”,只能在原有数据集上表现优异,拿到新环境之后就失灵。而梅卡曼德就在针对这一问题做“以小时为单位的交付”,让机器人在更复杂的场景下也能表现得游刃有余。


在关于具身智能私有数据和仿真数据问题的探讨中,李睿宇表示,思谋科技在去年就已经将仿真数据生成的能力加入到公司自研的智能软件产品当中,并在实际生产中取得成效,很好的为工业客户解决了困扰许久的数据匮乏问题;刘可为从科大讯飞“语音唤醒词定制”的案例出发,指出在未来具身大模型的训练中,仿真数据的占比会越来越大;张志琦认为在工业场景下,真实数据的采集和积累依然关键,依靠大量行业数据的积累和模型能力的提升,才能让具身智能机器人在工厂里更好地工作;张本表示在重工行业数据严格保密的情况下,帝尔博格采集数据的大原则是“Real2Sim2Real”,通过自己搭建场景、收集真实数据之后再做仿真会有更好的效果;邵天兰则表示,仿真数据不是一个新的东西,未来机器人能否自己进行学习、自己训练自己,是梅卡曼德更加关注的问题。

以下为圆桌论坛的全部内容,经过编辑整理:


曹巍:各位现场观众大家下午好!非常开心今天有机会在这么寒冷的冬天,我们一起热火朝天地讨论未来的科技和未来的创新,也非常感谢甲子光年组织这么好的活动,大家有机会一起来分享。


最近大家也能够感受到整个科技创新的浪潮在持续升温,Open AI的发布会连续12天,每天都给大家带来了很多不一样的惊喜。在具身智能领域也是一样,过去一年,具身智能应该是整个创投赛道里面最火的话题,不管是早期的科技VC还是大厂战投,大家都在关注具身智能的话题,我们也看到了像华为、腾讯、美团等大厂也在积极入局,创业公司其实也有很多创新的项目和机会涌现出来。


在蓝驰,我们很早就在关注机器人,从2016、2017年围绕智能机器人方向陆续投资,比如高仙机器人,具身智能领域包括银河通用、智元机器人,以及参会的帝尔博格等,都是我们投资过的项目。


所以也特别开心,这次有机会和大家一起来聊一聊。第一个环节先请大家做一个简单的自我介绍,每人大概一两分钟。


李睿宇:大家好,我是来自思谋科技的李睿宇。思谋科技是一家专注于帮助工业制造业实现智能化升级和数字化落地的企业,是一家具备“光”“机”“电”“算”“软”全栈领先能力的标准软硬一体化产品及解决方案供应商。我们是将人工智能与机器视觉等前沿技术落地于工业场景,通过我们自研的工业大模型、智能工业平台、智能传感器产品以及智能一体化设备等产品帮助我们的制造业提质增效。目前我们已经服务了包括消费电子、新能源、精密工业等全球近300家行业头部企业。


曹巍:我插一个问题,在具身智能和人形机器人智能相关的领域,咱们现在有做一些工作或者有做一些研究吗?


李睿宇:我们目前已经在算法层面开展了一系列探索性工作,比如我们去年发布的全球首款工业大模型在今年发布了2.0版本,通过工业大模型驱动硬件,驱动机械臂等设备执行复杂的工业任务。我们后续还将继续探索怎么将机器视觉能力与产线现场操作、推理决策进行融合,在应用端产生更多价值。


刘可为:大家好,我是来自科大讯飞的刘可为,目前我在负责的这块业务叫机器人超脑平台。


我们的业务属性跟其他几位略有差别。我们是一个平台型的业务,各位都是我要服务的客户,我们的平台定位是“我们是机器人的AI技术提供商”。我们将讯飞领先的语音、人工智能和大模型等技术,面向机器人的企业提供专业的服务,目前现阶段我们聚焦在以下几个方向:


第一是人机对话,从听、说、看、认的角度让机器人更自然地去跟人展开交流;


第二是理解,包括对话内容的语义理解,以及对于任务的执行和规划;


第三是具身智能,在对话和理解的基础上,跟各位合作伙伴一起去探索怎么样将人工智能更好地运用到机器人任务执行层面。


张志琦:大家好,我是微亿制造的张志琦,我们最早是从工业检测开始,具身这类的场景来进行落地的一家企业。在整体的技术栈上面,我们自己定义叫“眼手脑”能力的组合。


眼睛这部分是指在一些特殊材质这部分超高精度成像的能力,是超越人的眼睛这方面的能力点;脑是指怎么能够更有效地在整个具身场景中形成对于任务、目标、环境等感知技术的能力点;手是指机器人规划和运动控制的能力。


我们最早是把“眼手脑”的能力运用在整个质检的场景里,也在为像3C,为新能源、汽车等等各类的客户来提供各类的服务;这两年我们也在把产品整体的能力进行再进一步的具身化。


包括今年9月24号的工博会上,我们也发了全球首创的具身智能工业机器人,它基本上能做到:一个现场的人作为“老师傅”来给机器人来做一遍,机器人的话能够学习到人的技能,能够快速尝试一遍、再学习一遍、再尝试一遍,再进行规模化。在更多的机器人的环境里面,能够再次部署和复制,基本上也能够实现类似人形机器人在一些柔性场景中的表现。但是,我们的成本和各方面的交付能做得更加的便宜,效率能做的更高。


张本:各位嘉宾好,各位朋友好,我是来自帝尔博格的张本,今天很高兴参加这个活动。我们聚焦重工业,做能够柔性生产的智能机器人。


实际上重工业是非常传统的一个行业,像我们航天、军工、船舶、冶金、钢构等等,有非常多的行业都属于重工业。这个行业起步早,从国家“一五”期间建设到现在,却一直都是一个以“人干,人作业”为主的生产业态,核心原因是产品非标定制导致的柔性生产一直以来缺乏智能化生产装备。


随着先进技术在社会各领域的产业化,怎么通过手眼脑协同,让机器人能够更好的适配柔性工作场景,去真正的替人解决重工业里边底层核心工艺的柔性生产问题。


我们在重工业里边,产品锚定比较核心的几类工艺门类,比如大的金属件制造的切割、焊接、打磨等物料类型非常非标的工序,做真正具备柔性的、具备具身智能的机器人产品。


邵天兰:梅卡曼德机器人做的是机器人的眼睛和大脑,我们现在最主要是和工业机器人结合,主要服务制造和物流行业,也有少量的商用场景,现在我们也是全球在智能机器人领域,和工业机器人结合出货量第一,国内已经连续四年市场占有率第一,我们占有率也非常的高,比后面六七名加起来都要多。


我们现在已经累计部署了将近2万台各种各样的智能机器人设备,和张建伟院士团队合作开发的多模态大模型也能够实现用语言表达一些高级复杂的任务后,机器人自主去执行。具体到把这样的多模态大模型的技术实际应用在工业场景里,我们目测还需要有一年左右的时间。


大家如果在微信上搜梅卡曼德,可以看到我们的公众号和视频号里面有非常多前沿技术和应用场景的介绍,所以也欢迎大家在微信上关注我们的公众号。




1.什么是对业务影响最大的技术?

曹巍:下午的第一个话题我们先聊聊技术,最近在具身智能机器人及整个通用智能领域,技术可以说是日新月异,每天大家都能够学到一些新的术语。


比如说前阵子强化学习——RL(Reinforcement Learning)一下子就火了,OpenAI又推出了RL functioning,基于垂直场景核心数据的强化学习;在机器人控制领域,特别是小脑方面,其实RL也是非常常用的核心技术能力。模仿学习最近也很热,最近大家在VLA(Vision-Language-Action models,视觉-语言-动作模型)方面探索和讨论的也会比较多一些。


因此,我想问大家一个问题:过去一年里在您所在的领域中,哪一项技术或哪一个垂直技术上的创新或突破,给您留下深刻的印象,或者给业务带来较大的影响?


李睿宇:我们始终保持对前沿技术动态的密切关注与持续跟进,而在这个过程中我们发现培训数智化人才的工作具备很高的落地价值。在我们给企业做数字化转型的过程中,我们发现无论是企业也好,或者说高校也好,其实在培训相关人才方面会投入非常大的精力。于是我们为需求方配备了特定的设备,借助沉淀的行业数据,设备的操作手册,为企业和学校搭建平台。其中文档数据库编排后进行SFT这一技术作用显著,我们已经在多个核心客户与学校实现了成功落地。


曹巍:这个用的就是基座模型对吧?


李睿宇:是的。


刘可为:因为我们讯飞其实擅长语音,那我就从语音的角度来讲一下。


现在大模型很火热,我感觉大家都过分关注于大模型大脑,对于具身感知这一块关注度有所降低。其实具身感知作为具身智能的第一环,在整个具身链条中有着重要的作用。试想,如果连感知层面都做不到信息的准确收集,大脑再聪明,也无法给出准确的反馈。


在2024年,给我感触最深的一个技术突破,就是讯飞多模态语音降噪技术。


关注讯飞的朋友应该看到,在今年的6月27号,我们在北京发布会上展示了一款技术。过去我们都是通过麦克风阵列来做语音降噪,在一些高人声噪声场景下,很容易听不清,听不懂,导致后面的交互无法进行。


现在多模态语音增强技术,可以结合人脸识别、唇动的检测,加上语音和方位的信息融合,做到在一个摄像头画面和声场范围内,想听谁的声音就听谁的声音。我觉得这样的一个多模态的语音降噪技术,在未来可以解决很大一部分具身感知、人机交互的问题,技术突破的意义是非常大的。


现在这个多模态语音降噪技术已经和很多人形机器人厂家在合作,相信在不久的将来,大家就能看到搭载我们产品的机器人跟大家见面。


张志琦:曹总您前面谈到十分重要的一个话题,如果真的要在具身智能这一侧解决一系列问题,那今天在整个具身智能工业场景里,其实面临的挑战是比较多的。


我觉得第一个比较大的挑战是,得先把ROI算过来。我们的经验是,如果今天这台设备在客户现场的ROI是算不过来的,也就是如果它今天对标的一个对象是一个工人,如果它比一个工人更昂贵,企业怎么着都不会拿来用的,拿过来用也不会真正意义上用这台设备去产生各类的数据。而没有这些数据的话,我们任何的算法和模式,无论是ROI还是VLA模式的话,都没有办法真正意义上去形成和落地。


所以,我觉得要先解决设备怎么能够真正意义上到现场,能够被有效用起来的问题。拿我们自己的尝试来说,首先第一点,我们对于感知这侧的想法,或者对于整个设备BOM的方面,我们是有极其克制在做这件事情。


举个例子来说,今天可能很多的柔性化设备都是用3D相机在做,一个3D相机的本身的成本跟一台工业机械臂的价格差不多了,从我们来看的话,是不是有可能用更简单的RGBD的相机能够去解决这类的问题,从而去降低它的成本?


第二,人在这个过程中到底起什么作用?我们今天可能谈的具身智能是用设备去把人替换掉,但是在这个过程中,其实人是可以辅助设备的,人可以给设备做保底,或者是说从模型的效果上面来说,去做这方面的收敛。


所以,我们还做了一个比较完整的平台,也就意味着在模型产出的结果在没有办法满足工业需求的时候,我们是能够真正意义上通过人的复判,通过人方面的纠正,从而去让它去落地,去满足工业的需求。我们在做一些像整车厂一体化压铸设备的打磨、以及质检这类的场景里面,都大量运用了这些技术,从而去确保这些技术中间去落地,去实现。


再回到机器人的小脑这一侧,你也提到了两个核心的技术RL和VLA,坦白来讲,我们自己内部判断这两套技术中间有点像自动驾驶里面到底是一个L4的自动驾驶技术,还是在一个L2+的驾驶技术之上。


可能现在很多公司都是在齐头并进地往前去走。VLA这两年可能看上去很炫,特别像Physical Intelligence这家公司做出ALOHA家务机器人之后,大家基本上都在用VLA的技术去做。但是坦白讲难度很高,因为在底层框架等方面缺的很多。这几年看起来在效果上是能够达到在特定小的算子这一侧的能力上,比如说机器人特定的一个动作和任务上,他能够做出不错的效果。


所以在我们内部中间两套模式其实现在是在齐头并进,并且在具身智能工业机器人上,利用RL侧来说进行一些保底,进行一些人的配合,相对来说可能会做的更好一点,但是我们也没有放弃VLA这条道路中间往前走。


张本:针对曹总刚刚问的这个问题,我想从两方面来阐述一下我们取得的一些进步。


第一点,我们本身是做工业制造类的智能机器人,工业制造有它固有的作业规程、步骤、方法、技巧。


比如说我们同样做一个打磨的场景,物料材质可能会影响到打磨控制策略的调整,我们通过对材质这一类材料数据的积累以及泛化,可以智能生成不同材质物料的控制算法推理及落地,继而通过数据积累实现对打磨工艺效果的提升。


第二点,曹总提到的机器人小脑这块,在智能机器人控制策略上,我们认为运动控制只是整个工业控制,或者说达到最终控制效果其中的一环,我们除了对控制精度,对控制速率的要求之外,我们最终保证的是加工的质量效果。


因为智能机器人需要解决柔性生产的问题,针对不同形状的工件或者物料,针对单个件或者多批次工件,我们实现了基于物料多样性的控制策略柔性调整,最终带来了生产效率的提升。


这两点都是基于不同类型数据经过RL后,实现柔性控制的一些表现。


邵天兰:我们现在看到的从技术上来讲,让我觉得潜力比较大,而且影响比较广泛的,还是让机器人有一些常识,其实这个事它带来的意义很大。因为我们做传感、感知、规划、决策各方面,面向一个任务的时候,经常会说一句话——“20%的工作是在解决这个任务,80%的工作甚至90%的工作是在应对各种特殊的情况”。像我们现在也会有少量的商业场景,包括增加不可控的场景,特殊情况会很多。


所以,我们现在通过多模态大模型让机器人具有一些尝试,这些尝试是不可能靠手工一条一条做进去,这也是自动驾驶所面临的问题,如果我在一个非常理想的情况下,虽然它复杂,但我还可以用人工各种的规则应对的,但是总会有很多奇怪的情况,我还是需要有一些人,作为一个成年人,用过去几十年学到很多常识去应对,这个我觉得是非常重要的方向。


很多技术都没有收敛,但是让机器人具有一定的常识,是我觉得非常重要的一个方向。




2.交付模式有哪些新突破?

曹巍:各位嘉宾都分享了自己所在领域视角观察到的技术上的突破和核心进展,下一个问题就更具体落地了。我们看到的技术能力进展,最终需要落实到商业和具体业务的应用环节。


在座有做To C的也有做To B的,交付的成本、周期、流程,以及质量问题,一直是我们所说的“机器人之痛”(即机器人的商业模式之痛)的问题。我们看到很多公司一年收入的15%、20%甚至是更高,都要放在整个落地交付的环节。


也想听大家从各自的角度分享看法,并探讨这些新技术或我们看到的新的突破,在接下来整个商业侧的落地和交付的环节,是否真正能够带来一些商业模式上的创新,或者是比较大幅效率的提升,我觉得这一定是一个非常有意思的话题。


邵天兰:因为我们是一家高度标准化、产品化的公司,我们本身的定位就是做好标准化的产品,配合很多细分领域优秀的解决方案厂商一起做,所以我们对这个话题也非常的关注。


我们现在看到的是,很多的企业在做相反的事情,比如大家在网上可以看到一些这个机器人的视频,可能机器人做了一个很简单的动作,背后要针对exactly那个场景,要采大量的数据,要去训练,变一点都不行。


这样的话,它实际上就变成了一个基于大模型的teach and replay,只不过是我原来teach之后,我就直接原样不动,现在是我先把它teach之后,放到模型里面replay,反而就降低了效率,这个是现状,我不是说他永远会如此。


从长远来看,人形也好或者各种机器人拿到现场之后,就能直接去使用,对吧?但是我们现在看到的情况是exactly the opposite,大家在一个现场要去对那几个动作,疯狂采数据,可能训练个几个月之后拍一个几分钟的视频,各种视角的切换,各种剪辑,拿出来放到朋友圈一发就没了。


这个是我们现在看到的现状了,后面有几个大的问题,还需要整个行业,包括学术界,包括一些共同去探讨,比如说所谓的泛化能力,包括应用场景的选择,产品的形态。我们梅卡曼德现在做到的是销售一代,改进一代,预研一代,我刚才所说的所有的事情都还在我们的预研体系里面。


我们现在此时此刻交付的东西就是标准化的机器人传感、感知、规划这些东西,我们已经完全实现了现场交付,从我们自己公司的视角来看,额外的定制几乎为零。从我们合作伙伴的视角来看,也是很高效的。在更复杂的场景下,在多模态大模型等领域,我们实现了以小时为单位的交付。


当然此时此刻还没有产生对于实际现场交付正向的效果。但是我们的期望的未来就是拿过去就能开箱即用,客观上还有很长的路要走。


张本:我们是做生产型的智能装备,交付压的时间越长,肯定是对公司盈利影响越大。


对于一款智能机器人来说,本身我们的产品是以工作站的形式呈现出来的,所以软硬件足够的标准化、模块化,一定是影响交付周期非常关键的一个因素。


实际上,如果是设备在足够智能的情况下,面向柔性的问题,是可以不用投入多少人力的,随着算法或者产品技术的迭代,我们的交付周期是否可以持续压缩是智能化程度或者算法能力高低的问题。


举个例子,我们去年给一个客户做的工作站,生产的物料类型只有几百种的体量,我们的交付周期从安装调试到具备验收花了半个月时间;今年面对同行的业务场景,物料类型扩展到了几千种,我们做到了两三天部署,这就说明整个的算法的泛化能力,经过前期的训练与验证,已经达到了足够高的标准化。


如果说再往后发展,我们能不能做到开箱测试就交付呢?肯定是技术进一步迭代的方向。


张志琦:我们一直走的一条道路其实是希望能够用技术把整个成本能降下来,包括交付的成本,其实在质检这个领域中间,我们是很少数用机器人去解决质检这个场景问题的企业。


我们产品的形态是机械臂拖上光源加镜头对着产品去拍。其实这个机械臂是柔性的,但是交付的成本就很高,比如说任何一个产品都是几百个点位,前期的手摇去调机会花很多的时间;在所有的点位中,最终的调整是以光学成像的结果来验证这个点位对不对。所以我们自己就研发了一整套的自动化点位调整软件,用户只需要给出CAD图纸,我就快速就可以把点位调好。以前调整几百个点位差不多几个星期,今天因为只需要小时级的时间。


第二件事,是在很多的项目落地过程中间,模型的泛化能力以及爬坡这一侧的情况到底能做到什么样的程度。比如说在新能源扁线电机定转子检测这类的项目里边,模型原来爬坡的时间需要差不多几个星期的时间,今天已经压缩到只要2天到3天的时间。


这个背后其实是大量同行业的数据的积累,以及人和模型之间的快速的匹配,从而更快速让模型达到一个可用的程度。


所以在这次的过程中间的话,以前微亿最早是从做项目开始的,一台一台设备去卖,一台设备出去,至少跟五六个人,到今天的话,其实我们形成一些行业化的、标准化的专业化设备。


我一台设备出去之后,基本上配一个人就够了。以前要电气工程师,光学工程师、还要带机器人的工程师一块去,今天我只要一个现场工程师去解决一切问题,所有的能力在云端这一侧就快速落地,去匹配。所以在这一侧其实才慢慢沉淀到今天,走到了具身智能这条道路上。


但是,本质上都是一个观念,如果不把整个成本降下来,包括硬件成本,交付成本,具身智能的经济账是算不过来的,也是很难真正的去落地和实现。


刘可为:其实我觉得交付的痛点,不论是机器人厂家交付产品给他们的客户,还是说我们交付能力给机器人厂家,都非常重要。针对这样一个标准化交付问题,从我们平台的经验来说,主要是做好以下三点:


第一点,要从单能力的交付转变为全链路解决方案的交付。以人机交互为例,整个交互链路涉及能力很多,从前端的降噪、唤醒,到语音识别、语义理解、语音合成。过去我们是一个个的原子能力提供出去,厂家自由度很高,可以多家能力混用,但问题也很明显,一来技术选型难,出现效果问题不好排查,而且响应时间慢,大家的交付很痛苦。现在我们提供的是一套全链路的解决方案,将整个的人机交互能力封装到一起,通过高度集成化的接口让用户开箱即用,享受到的就是我们内部打磨的最快、最好的效果。


第二点,从纯软的SDK逐渐变成了软硬一体。前面几位专家也都提到,现在机器人能力越来越丰富,全部功能都由开发者自己去做,适配的工作量非常大,而且涉及到很多传感器之间的耦合。如果只给他一个SDK, 客户是没有办法快速集成的,你要帮他选麦克风,帮他选喇叭,帮他调试线路,整个一套调下来,没有几周时间是不可能玩转的。现在我们把这整套的东西做成软硬件一体的模块,直接安排就可使用,大大降低了开发者的集成门槛,我觉得软硬件一体也是构成我们标准化交付的一个重要组成部分。


第三点,从纯做项目,转型做参考设计,比如我们现在在做一些智能门店营销机器人解决方案,过去我们可能直接就是硬编码的方式来搭建项目,客户需求是什么,我们就做什么,只是针对这个客户的这个场景去设计开发;现在我们在设计的过程中,尽量的将通用的模块跟客户特定需求做有意识地剥离,从项目需求中提炼出场景需求,将场景功能与客户的项目功能解耦,做成参考设计,这样我们就能实现复制推广。


李睿宇:在面向客户的交付环节,我们所提供的主要是检测工作站以及标准化检测设备。就当前客户的考量重点而言,产品是否具备具身智能并非其决定采购与否的核心要素,诚如诸位同行大咖所提及的,现阶段该领域仍存在诸多有待解决的问题。


比如说一个机械臂嵌入到工作站里面,可能你的效率问题,产生的震动问题,以及成本问题,都是需要去全盘考虑与解决的。以现有的解决方案来看,相较于传统的普通运动模组,是否存在更具成本效益的替代方案?这些都值得我们不断思考与探索。


我们不执著于将自身的能力或者说具身智能技术卖给客户,我们把它变成了一种工具化的东西,把对软硬件的控制、对点位的控制,经过近年来我们实际方案经验的积累,输入到了我们的工业大模型里面去,使得我们的大模型能够去辅助我们的工程师能快速的根据客户目前的需求,我们现有的产品调整出合适的方案,这个是我们在落地层面的探索。




3.构建仿真数据和私有数据

曹巍:我觉得大家分享都非常精彩,交付环节是整个商业模式能够快速飞轮转起来的一个关键。另外一个飞轮就是数据飞轮:


第一个数据飞轮是我们在交付前,可能我们会基于自己的一些私有数据库,或是通过Sim-to-Real,或者是现在比较流行的,叫做Real-to-Sim-to-Real的仿真的数据集,做一些模拟性的训练或落地场景的预演。


第二个数据飞轮是真正的在落地之后,把产品交付给客户。交付给客户之后,实际的业务场景中会产生真实的业务数据,一旦进入到了真正的业务场景或者是落地场景,如何去和我们的合作伙伴去沟通,能够拿到更多高质量的业务侧的数据,让我们的模型和AI在源源不断的数据飞轮里可以进一步的去成长,这里面又涉及到很多问题。


因此我想知道大家如何评估仿真数据的价值,或者如何构建自己的私有业务数据?


李睿宇:关于合成数据跟真实数据的相关问题,其实我们在前两年就开始关注这件事情并展开探索了,在工业领域,尤其是质量检测方面,以面板行业为例,数据样本匮乏的问题一直是行业痛点,由于生产周期长等种种原因,客户可能无法在短时间内提供足够训练模型使用的数据。所以,我们在去年就已经开始将数据生成这方面的能力纳入到了我们的标准化软件产品中。我们现在的很多项目,尤其在前期量产爬坡阶段,就能通过通过有限的数据去构建出效果不错的模型,进而达成设备与整个产线的联动,并且在过程中结合生产实际情况迭代优化,持续提升模型的精度。


第二是跟合作伙伴怎么去共建数据库的问题,我们的行业可能相对比较封闭一些,尤其是消费电子等行业,出于保密性等原因,其实很多数据是没法带出工厂的。我们更多考虑的是去帮助客户去构建数据中心,让这些数据只在他们的工厂或者他们的集团里面进行使用,帮助他们不断优化提升;同时,也把我们的平台或者产品做的足够普惠化与智能化,通过端到端的产品设计,降低客户使用门槛,能够使得后续的迭代维护交给客户自己去处理。


刘可为:首先第一个问题关于真实数据跟仿真数据,我还是从语音这个角度去讲。以前我们去做一个语音唤醒词的深度定制,基本上制作周期是以月起步,费用也是大几十万。为什么需要这么高的一个费用?很多人不理解?


因为,我们以前都是采用真实数据去做训练。可能要找500人以上,还要覆盖不同人群、不同性别、甚至不同地域,大家去喊唤醒词,通过这样的数据才能提升模型的鲁棒性。随着大模型跟AI技术的进步,现在我们依靠真人录制唤醒音频、训练唤醒词的比例已经大幅下降了,我完全可以用超拟人语音合成的声音去做,随着语音合成效果的提升,它可以模拟不同音色,不同情感的发音效果,这样就可以大幅提升语音唤醒训练的效率。所以我觉得从这个角度来讲,AI技术效果和AI训练方式是相辅相成、相互成长的,仿真数据在未来的AI数据训练里面,它的占比会越来越大,越来越重要。


谈到第二个问题,训练数据该如何获取,目前我觉得分几个层面:


首先是模型的基础能力,一方面要靠业内的公开数据集,有需要的公司一定要去构建自己的数据收集团队。目前讯飞就有一个比较大的数据团队去支撑讯飞AI的底座能力;


第二,在通用能力之上的垂类领域。比如说我们目前做的比较深的、效果也比较好的教育、医疗和科研领域,这些领域数据的获取和使用,仅仅依靠企业是不够的,需要有政府的主导推动,行业协会的配合,联合整个行业的力量才能做到,而且数据的训练和使用也有严格的限制。


第三,就是客户的私域数据,则完全要在客户的授权范围内才可使用,比如在一些私有化项目中,我们是可以做一些针对这个企业的数据训练模型的。


张志琦:我们也把这事情一分为多来看,在工业质检这个场景,其实我的个人观点跟李总是很接近,基本上大家采用的都是目标对象识别等技术,就是怎么样能够去在项目中间沉淀更多的数据集,再造一些数据出来去完成这方面模型能力的提升。


但是,回到具身智能,特别是以任务为核心的机器人,到底怎么能够把这个任务去完成,现在目前大家能采用的,坦白讲还是在实际操作中去做数据的积累,才能有机会去把这份任务完成。因为本质上它不存在“在模拟环境里面把这份数据再造出来”的情况,这也是看到最新的绝大多数具身智能公司,真的在用数据工厂,一堆人在遥操作机器人,特斯拉的擎天柱也在做类似的事情。


所以,其实应该还有一些更好的方式能够去对于这些数据中间在做积累,但是的确还需要花更多的时间和精力去完成。


张本:关于数据这个问题,因为我们的产品面向重工业的柔性生产,重工业很多造的是国之重器,严格来说,很多行业客户数据是保密的,不一定能拿得到,又必须要去做这样的训练,那要怎么去做呢?


大的原则就是real to sim to real,我们可能会得到少数的样本数据,基于这样的样本数据,基于数据特征,不同的角度、姿态、尺寸泛化,通过仿真可以给它衍生出很多相关数据,从而加以学习,这是一种方式。


第二类,我们自己可以自搭一些实验场景,去把这些数据实实在在的给造出来,再把它去做一些推演。


所以在当前数据量有限的情况下,主要通过这两种方式。后续随着我们业务交付的积累,经客户允许与共享来增大我们的数据量。


邵天兰:我们从2019年开始就已经在使用非常多的虚拟数据,所以说实话,我不是很明白为什么这个话题突然就火起来了。有一些创业公司试图去重新发明一些东西,把一些大家早就已经用过的一些东西,拿出来又当成新发明。


创业圈有一个说法,就是有一些东西因为过度承诺、过度夸大,过个几年,可能这个东西就臭了。但后面事情总还要继续做,所以总会有一些人重新发明一些词汇,把这些东西拿出来又炒一遍。


虚拟数据绝对不是一个新的东西,这个东西我们自己在过去五年已经大量去使用了,而且我没有看到任何新的东西,在座很多公司我也都知道,这一块也都用过很多年了。


我的理解是这样子,就不管虚拟数据也好,还是像刚才大家提到的资产数据也好,最后解决的还是bootstrap的过程,我们现在自己也是这么做的,到最后还是希望机器人能够自己在这个应用中,类似于强化学习,能够自己能训练自己。


但是在这个过程中,你不可能说拿一个成功率1%的设备送到现场,这有点像自动驾驶,车起码有一个能开的能力,之后才能在实际使用再去改进。所以,我觉得阶段性的问题也许没那么重要,因为我花一个亿解决,还是花两个亿解决,花十个亿解决,从原理上来讲没有差别:


第一,它的绝对值不是那么大;


第二,它是一个在某一个时间段之内能解决的问题。


所以,我觉得这个问题就是一个亿还是两个亿的区别,最后结果就是没区别,但真正有区别的是,当这一段阶段过去了之后,我的机器人怎么能够在非常复杂变化的场景里面各自去学习,这是我觉得可能是一个更大的一个问题。至于它出场之前怎么弄,这个事一个亿、两个亿、十个亿,它是一个死数,我觉得这个问题也许没那么重要,这是我的个人观点。


(文:甲子光年)

欢迎分享

发表评论