国内首次将人类操作数据直接应用于机器人操作!零真机数据实现跨平台泛化!

数据是具身智能领域目前最大的挑战:如何高效地将海量人类操作视频转化为机器人可用的训练数据?

近日,逐际动力在这一难题上取得了重要进展。他们提出的LimX VGM(VideoGenMotion)算法实现了一个关键突破:首次将人类操作数据直接应用到机器人操作中,无需额外的真机采集数据就能完成复杂任务!

机器人大讲堂了解到,该方案的技术创新点在于将视频生成大模型作为“解码器”,结合引入空间智能,实现了2D视频到3D机器人操作的精准映射。在实际部署验证中,这套算法已在不同机器人本体上完成测试,展现出良好的跨平台适应性。这一进展意味着具身智能领域的训练效率有望获得显著提升!

值得关注的是,该技术在人形机器人操作领域具有独特优势。由于人形机器人的运动模式与人类高度相似,利用这一算法,研究人员可以更加准确、直接、高效地将人类动作视频转化为精确的机器人控制指令,这将为相关应用的规模化落地提供重要技术支撑。   
 
逐际动力LimX VGM 具身机器人操作算法

总体而言,LimX VGM的工作流程分为三个关键步骤:

训练阶段:收集少量真实人类操作视频,利用这些数据对现有视频生成大模型进行后训练。

推理阶段:将初始场景与任务操作指令作为提示Prompts输入,使用过后训练的视频生成大模型生成包含深度信息的人类操作视频,并由此生成相应的机器人操作行为。

执行阶段:系统将生成的行为转换为符合机器人操作逻辑的运动解算,由机器人执行对应的操作轨迹。

LimX VGM背后是逐际动力三大具身技术核心创新点:人类操作视频到机器人操作策略及行为的桥接、空间智能的引入、算法与机器人本体的解耦。   

LimX VGM 工作流程

生成式大模型“解码”人类行为:一场数据效率革命

具身智能的目标是替代人类完成改变物理世界的任务,为此需要大量、多样化且高质量的数据进行训练,数据来源包括真实数据、仿真数据和互联网数据。相较于需要耗费巨额成本获取的真机及仿真数据,互联网及视频大模型中已有海量的人类操作视频,获取成本最低,且包含丰富的物理常识、行为轨迹及操作决策路径。

然而,如何把这些数据用起来,行业仍然在寻找行之有效的方法。主要挑战包括:人类操作视频无法直接应用于机器人操作;大模型虽然能够根据这些视频生成行为轨迹和操作数据,但往往存在精度不足、偏离物理规律、存在幻觉等缺陷,即使数据准确,仍然无法直接应用于机器人操作。 
 
LimX VGM的第一大创新在于,实现了人类操作视频到机器人操作策略及行为的桥接。它并不试图让机器人“模仿”人类动作,而是通过视频生成大模型这一“解码器”,将人类操作视频解构为机器人可理解的物理规律和空间逻辑。

LimX VGM 只需额外采集少量的人类操作视频数据

这种“解码”机制的核心价值在于数据效率的指数级提升。传统方法中,要让机器人学会叠积木,可能需要采集数万次真机操作数据;而LimX VGM仅需采集少量的人类叠积木视频,结合大模型中已有的物理常识,即可生成适配不同机器人本体的操作策略。这种“零真机数据+小样本人类视频”的模式,直接打破了具身智能落地的最大成本壁垒。

LimX VGM不做视频生成大模型,而是利用当前已有的大模型框架,及其丰富的知识和超越人类的智力。因为视频生成大模型本质是历史数据的压缩,包括视频、图像、文本、合成等数据,其中包含的人类操作行为数据规模巨大、内容丰富。通过有效训练,LimX VGM能够从中提取对执行操作任务有用的关键信息,转化为机器人操作策略及行为。   

三维空间智能:破解2D视频对操作的“降维打击”

人类操作视频本质是二维图像序列,而机器人执行需要三维空间坐标。这一维度差异曾让行业陷入两难:要么依赖昂贵的深度传感器采集数据,要么承受2D到3D转换的精度损失。

LimX VGM给出的解决方案颇具巧思,其第二大创新在于——在视频生成阶段直接注入空间智能。通过对视频大模型进行深度信息后训练,算法生成的画面具备三维空间参数。这些数据并非来自复杂的多传感器融合,而是通过深度相机捕捉人类手部操作过程,再结合大模型对物理规律的先验知识进行补充完善。这种设计显著降低了数据采集门槛。

LimX VGM 引入深度信息,让生成的操作视频直接包含三维空间数据

在实际演示中,算法展现出对操作任务本质的深刻理解。例如在清理桌面任务中,LimX VGM不是让机械臂简单复现人类抓取动作,而是通过分析生成的三维数据理解物体特征和操作要求,为机械臂计算出最优的抓取策略。

输入Prompt “请帮我清理桌面” 后的视频生成与实机操作

通过引入空间智能Spatial Intelligence模块,LimX VGM对视频生成大模型进行后训练时,引入深度信息,让生成的操作视频直接包含三维空间数据,这是让机器人能够进行物理空间操作的关键。LimX VGM深度信息的采集过程简单、易得且高效,仅需通过深度相机捕捉人手真实的操作过程即可。

如此空间智能的引入不仅让数据更容易获取,也进一步拓宽了操作自由度。更重要的是,LimX VGM率先将人类的操作从三维空间抽象为机器人操作,使算法突破了仅能使用机器人操作数据的限制,实现了向人类操作数据的跨越式扩展。

算法与本体解耦:推开具身智能的“泛化之门”

算法与机器人本体的解耦是LimX VGM的第三大创新。用同一套算法控制三种不同机器人本体的演示效果,直观展现了LimX VGM的泛化能力。

本次演示使用了KUKA、UR和求之三种机械臂,它们在构型、参数、能力等方面的差异巨大。对于同类的场景和操作,比如演示中的叠积木,同一个算法在三个机械臂上都能简单快速部署,并实现了一致的操作效果。

KUKA、UR和求之三种机械臂参数对比
            
但更深层的意义在于,LimX VGM提升了机器人操作算法的泛化性能,实现了与机器人本体硬件结构的解耦。

传统机器人算法高度依赖本体参数:机器人本体的关节数量、负载能力、运动学模型等因素,直接决定了算法能否生效。这导致行业陷入“硬件迭代-算法重写”的循环,严重拖慢技术落地速度。而LimX VGM通过将操作策略抽象为物理空间中的轨迹序列,再通过适配器转化为具体设备的控制指令,实现了“一次训练,多端部署”。   
           
同一个算法在三个机械臂上都能简单快速部署,并实现了一致的操作效果

这种架构对未来的具身智能发展具有深远影响。当算法不再受限于机械结构,人形机器人的复杂操作或将直接复用人类视频数据生成的轨迹,避免从头训练导致的“数据饥渴”。新兴机器人公司或将无需投入重金构建算法团队,只需完成基础接口适配,即可获得成熟的操作能力。在农业采摘、家庭服务等非标准化场景中,现场人员也可能用手机拍摄操作视频,就快速生成定制化机器人解决方案。

人形机器人领域的前哨战:从机械臂到通用操作平台

LimX VGM是逐际动力探索具身操作落地崭新的开始,也是关键一步。公司表示,他们将以数据驱动为核心,继续优化LimX VGM的能力,推动算法适配Cosmos等更多先进的视频大模型,并优化算法推理效率,逐步实现实时视频生成。同时,进一步优化空间智能的模块性能,提升操作执行的精准性。 

尽管当前演示聚焦于机械臂场景,但LimX VGM的技术架构显然指向更宏大的目标:将人类在三维空间中的操作直觉,转化为通用机器人的“肌肉记忆”。

对于人形机器人而言,这种能力迁移具有特殊价值。人类视频中蕴含的操作决策、环境交互等隐性知识,恰恰是当前人形机器人运动的痛点。

这种“以人为本”的设计思路或将引发行业连锁反应。随着更多人类操作视频被标注为机器人可读数据,大模型的物理常识库将持续丰富,形成数据与能力的良性循环。具身智能中小型企业甚至个人创新者,可通过开源视频数据集和轻量化微调,快速开发特定场景的机器人应用。当操作能力可通过视频“灌输”,机器人操作技能更新将变得前所未有的便捷。
LimX VGM 可实现低成本机器人操作泛化
            
生成式具身智能:两大技术领域的深度融合

LimX VGM的发布,意味着生成式大模型与机器人技术的融合迈出重要一步。这种跨界并非简单的能力叠加,而是可能催生出新的技术范式。

这种范式有机会重塑行业演进路径。传统需要数年积累的操作能力(如精细装配),未来可能通过数小时视频训练快速获得。视频生成模型公司、机器人硬件厂商、系统集成商或将形成全新生态,推动具身智能从封闭研发走向开放协作。

实现具身智能不仅需要找到采集有效数据的方法,数据利用率也是一个不可忽视的重要问题。当行业不再痴迷于数据规模的内卷,转而在数据转化效率上构筑护城河,具身智能的落地速度或将迎来指数级拐点。据悉,通过LimX VGM,逐际动力实现了对人类操作视频中操作任务本质的理解和信息提取,从而弥合了人类操作与机器人操作之间的巨大差异,并创造性地提出了「数据-性能ROI」这一数据效率评估方法,将其作为具身操作大模型算法领先性的关键评价标准。

逐际动力重点关注「数据-性能ROI」

从更宏观的角度看,LimX VGM为释放AGI在物理世界的泛化能力提供了新途径。不同于传统的端到端训练方法,通过视频生成模型作为中介,人工智能系统可以更自然地理解和复现人类在物理世界中的操作行为。逐际动力表示也期待与视频生成模型公司、系统集成商及创新者深入合作,共同推动这套技术方案在行业中的实际应用与落地。

结语:突破具身智能的数据瓶颈
总结来说,LimX VGM技术方案通过视频生成大模型这一创新桥梁,成功实现了人类操作视频到机器人指令的高效转化。这一突破的关键在于算法与机器人本体的解耦,使同一套系统可以从视频中精准理解空间位置关系,并在不同平台快速部署,为具身智能开辟了一条切实可行的发展路径——用更低的数据成本,实现更广泛的场景应用。在具身智能即将迎来爆发性增长的背景下,这种创新不仅撬动更大的市场空间,更让机器人距离真正理解和复现人类智慧的目标更进一步。而这一切,都始于今天这个让机器人“看得懂”人类操作数据的技术突破。 

(文:机器人大讲堂)

欢迎分享

发表评论