机器人迎来了一场认知革命!近期,英伟达联手加州大学研究团队发布了全新的NaVILA模型,一举突破了机器人实时决策的技术瓶颈。这个模型让机器人摆脱了对预设地图的依赖,仅凭自然语言指令和实时视觉信息就能自如导航。
(背景简介)
▍让机器人“听懂人话”,NaVILA带来全新交互范式
想象这样一个场景:在办公室,你对智能助手说:“帮我去会议室拿遗忘的笔记本电脑。”片刻之后,机器人就灵活地穿过办公区,巧妙避开来往的同事、办公桌椅和走廊上的纸箱,最后准确地找到会议室。它识别出你的笔记本电脑,小心翼翼地拿起来,然后稳稳当当地送到你面前。这个听起来像科幻的场景,如今已经变成现实。
NaVILA的革命性突破在于彻底改变了机器人的导航方式。传统机器人必须依赖预先绘制的地图和复杂的传感器系统,就像在跟着“导航地图”走路。而NaVILA让机器人像人类一样,通过实时观察环境并理解指令来规划路径。
研究团队的实测数据令人振奋。在使用宇树Go2机器狗和G1人形机器人进行的测试中,NaVILA在室内、户外等真实场景中的导航成功率高达88%,就连面对复杂任务时也能保持75%的成功率。
Go2机器狗接受行动指令:向左转一点,朝着肖像海报走,你会看到一扇敞开的门
G1人形机器人接受行动指令:立即左转并直行,踩上垫子继续前进,直到接近垃圾桶时停下来
▍“中间指令机制”:让机器人学会自主思考
NaVILA最大的创新在于提出了“中间指令机制”,这套机制包含高层控制器和低层控制器两个部分。高层控制器负责理解人类的语言指令,并将其转化为机器人能理解的行动计划。低层控制器则负责具体执行,控制机器人的每个关节实现预定动作。
NaVILA是一个两级框架,将高级视觉语言理解与低级运动控制相结合
这就像教导一位新员工。当你告诉他“去档案室整理文件”时,他需要自己思考如何找到路线、如何分类文件。NaVILA正是让机器人拥有了类似的能力 – 它能听懂高层指令,然后自主拆解成具体的动作步骤。
传统机器人更像是“机械执行者”,需要精确到“右转45度、前进3米”这样的具体指令。而采用NaVILA的机器人则像个聪明的助理,你只需说“去打印室取文件”,它就能自行规划如何到达目的地。
为了实现这种智能导航,NaVILA的底层使用了PPO强化学习算法,在NVIDIA的Isaac Sim虚拟平台上进行密集训练。系统会让机器人反复尝试在各种复杂环境中导航,不断优化其判断能力和运动策略。
NaVILA算法简介
▍从轮式到腿式:NaVILA适配不同机器人平台
NaVILA的意义不仅在于改进了导航方式,更重要的是将这项技术从轮式机器人扩展到了腿式机器人。这意味着机器人将获得更强的环境适应能力。
传统的轮式机器人,比如配送机器人,只能在平整的地面工作,遇到台阶就无能为力。而配备NaVILA系统的腿式机器人则能像人一样上下楼梯,轻松应对各种复杂地形。
这种突破带来了全新的应用场景。在医院环境中,机器人能自如地穿行于各个科室,协助运送医疗用品和样本。在工业仓储领域,腿式机器人可以在货架间灵活穿梭,完成更复杂的拣货任务。
NaVILA的另一个重要特点是其通用性。同一套控制逻辑可以适配不同类型的机器人,从四足机器狗到双足人形机器人都能使用。这极大降低了开发成本,为机器人技术的普及铺平了道路。
宇树Go2真实场景实测
宇树G1真实场景实测
▍技术创新背后的突破
作为一个融合视觉和语言的多模态AI模型,NaVILA在技术层面也有令人瞩目的创新。相比传统模型,它在训练成本上降低了4.5倍,微调所需内存减少了3.4倍,预填充和解码延迟也降低了近一半。
英伟达团队采用了独特的“先扩展后压缩”技术,通过压缩视觉信息和像素分组,在保留关键信息的同时大幅降低了计算负担。这让拥有7B参数的复杂模型能在有限的GPU内存中运行。
在多模态推理能力方面,NaVILA展现出惊人的实力,在多项基准测试中超越了GPT-4V、Sonnet 3.5等知名模型。这意味着它不仅能理解简单指令,还能处理复杂的多步骤任务。
该表比较了NaVILA与其他前沿算法在R2R-CE和RxR-CE基准测试中的表现。值得注意的是,NaVILA仅依赖S.RGB数据就在多项测试中创下最高分,显示出显著优势。
该表对比了NaVILA与多个顶级算法在ScanQA数据集的空间理解能力。数据显示,NaVILA不仅超越了最新的VLA模型,还优于那些依赖深度信息和相机姿态等额外数据的3D大模型。
▍结语与展望
NaVILA的出现让机器人从死板的“地图奴隶”变成了能够实时感知、自主决策的智能助手。这种转变不仅提升了机器人的实用性,更预示着人机交互即将迎来质的飞跃。
随着技术的进一步成熟,我们可以期待看到更多令人惊叹的应用场景。也许在不久的将来,有了NaVILA这样的技术加持,机器人真的能成为我们日常生活中的得力助手,为人类社会带来前所未有的便利。
英伟达承诺将很快开源NaVILA的代码和模型,这无疑会加速相关技术的发展和普及。我们有理由相信,一个机器人与人类和谐共处的新时代正在到来。
项目主页-https://navila-bot.github.io/
论文链接-https://arxiv.org/abs/2412.04453
(文:机器人大讲堂)