重磅!浙大最新人形机器人综述:50+年技术进化,全景解析与未来趋势


近期,浙江大学流体动力与机电系统国家重点实验室发布了重磅综述论文A Comprehensive Review of Humanoid Robots》,该论文系统梳理了人形机器人的发展历程、关键技术、应用场景及未来趋势。作为国内最具影响力的人形机器人研究团队之一,浙大团队基于其在人形机器人研发过程中的深厚积累,结合对全球技术发展的前瞻性观察,为业界提供了一份极具参考价值的技术路线图


论文不仅详细分析了从ASIMO到Atlas、从Optimus到Figure 01等国际代表性机器人的技术演进,还重点介绍了包括浙大”悟空”系列在内的中国原创人形机器人成果,全面展现了人形机器人从机械结构到智能控制的最新进展以下是对这篇重要论文内容的翻译整理和精要解读,希望能为行业同仁提供有益参考。



1. 引言


人形机器人是国家技术进步的关键领域,代表着一个充满希望的新兴产业,是未来经济和工业竞争的关键。这些机器人将对国家经济和社会发展产生深远影响。通过整合先进制造、新型材料和人工智能等前沿技术,人形机器人旨在模仿并最终超越人类能力。


人形机器人技术和产业在全球范围内正快速发展。2022年,特斯拉的Optimus首次亮相,重塑了人们对人形机器人功能边界的认知。2023年,大型语言模型的快速进步加速了具身智能的出现。目前,人形机器人正处于产业化前沿,展现出巨大的市场潜力。


实现人形机器人的广泛应用面临几个关键挑战:稳定的全身控制、智能升级、人机交互和系统集成。克服这些挑战是推动人形机器人进入主流应用的关键。


2. 人形机器人的发展历程


1969年,日本早稻田大学的Ichiro Kato创造了第一个双足机器人,它只有下半身,由液压和电缆牵引实现静态行走。1972年,第一个全身人形机器人问世。此后,人形机器人发展经历了几个阶段:从基础理论方法和系统形成,到关键技术的快速发展和系统多样化。目前,人形机器人已进入由应用驱动的产业化阶段,面向产品方向发展,未来有望实现低成本、大规模生产和应用。


国际代表性机器人


本田ASIMO本田于1986年开始人形机器人研究,1996年开发出P2模型,2000年推出ASIMO。该机器人后来实现了9公里/小时的奔跑速度,掌握了单腿或双腿跳跃、爬楼梯以及各种交互技能,展示了踢球、拧瓶盖、倒水等任务。由于生产成本高和可扩展性有限,ASIMO项目于2018年终止。


波士顿动力Atlas波士顿动力公司从2009年开始人形机器人研究,2013年发布了Atlas,专为灾难救援设计。十年间,公司在虚拟模型控制、非线性模型预测控制等方面取得突破,使Atlas能执行跑酷、舞蹈等复杂动作。2024年4月,波士顿动力推出完全电动版Atlas,关节可360°旋转。


特斯拉Optimus特斯拉2022年推出Optimus原型机,2023年的Optimus Gen2实现了稳定行走、抓取物体,并使用自动驾驶技术进行环境感知和智能导航。


Figure AIFigure AI发布的Figure 01展示了制作咖啡等能力。2024年3月,Figure AI与OpenAI合作,将多模态大型模型集成到Figure 01中,使其能实现环境感知、流畅人机对话等功能。


中国代表性机器人


中国在20世纪90年代开始了人形机器人研究,国防科技大学、哈尔滨工业大学、清华大学、北京理工大学和浙江大学等机构取得了重要研究成果。


北京理工大学汇童机器人北京理工大学于2000年开始人形机器人研究,2001年发布了汇童bhr-1,该机器人可以独立行走,最高行走速度达2公里/小时。经过多次迭代,该机器人掌握了打太极拳、与人类打乒乓球和防跌倒等技能。


浙江大学悟空机器人浙江大学开发的“悟空I”可以与人类或其他机器人进行数百回合的乒乓球比赛,引起了国际关注。”悟空IV”最高时速超过6公里/小时,跳跃高度为0.5米,可以爬上25°的斜坡和10厘米高的台阶,适应各种地形,包括户外表面、草地、泥地、楼梯和斜坡。


企业产品优必选科技于2012年开始开发人形机器人产品,发布了Walker系列。2023年,宇树科技推出了H1,2024年发布了第二代人形机器人G1。此外,小米、傅利叶、追觅和小鹏等公司也发布了人形机器人原型或产品。


3. 人形机器人头部组件


随着人形机器人融入社会和家庭环境,机器人的头部,特别是面部,在传达情感、提供社交线索和建立人机交互中的信任方面发挥着关键作用。有效的设计必须在功能性和心理舒适性之间取得平衡,超越“恐怖谷”效应。


由于“恐怖谷”效应,出现了两种截然不同的设计方法:一种是有意设计不太像人类的人形机器人头部,另一种是尽可能使人形机器人头部像人类。根据拟人化程度,人形机器人头部可分为非拟人化和拟人化两类。


3.1 非拟人化人形机器人头部


非拟人化人形机器人头部分为两类:完全没有人类外观(如使用电子屏幕作为面部)和含有部分人类特征但缺乏逼真皮肤和头发的机器人。


第一类主要在工业环境中使用,执行自主运输或工厂物流等任务,头部主要容纳传感器,如激光雷达、深度相机等。例如,Unitree的H1人形机器人头部作为深度相机的安装平台,Boston Dynamics的Electric Atlas具有带光环的大型圆形显示屏。


第二类通常用于需要与用户交互的领域,如接待、服务、教育和医疗保健。这些机器人具有一些类似人类的面部特征,可以做出简单表情。一种简单实现方法是使用数字面部,通过屏幕、投影仪或LED显示。另一种方法是使用机械结构实现动态面部表情,这些机器人通常采用卡通般的外观,以增强亲和力。



3.2 拟人化人形机器人头部


拟人化人形机器人头部通常配备逼真的仿生皮肤和头发,非常接近人类,通常很难与实际人类区分。拟人化人形机器人头部的发展经历了三个主要阶段:



3.2.1 拟人化外观


拟人化人形机器人头部需要具有高度类似人类的外观,特别是逼真的面部。实现这一点需要逼真的皮肤、驱动皮肤运动的机械结构以及传感器系统。


材料方面,Frubber是一种专门用于机器人面部的皮肤材料,由海绵状人造橡胶和泡沫混合而成,具有适度的硬度,允许自然表情。驱动方法包括电动(使用电机和连杆)、气动(使用气动执行器)和软材料变形(使用形状记忆合金等)。



3.2.2 拟人化运动


拟人化人形机器人头部需要执行自然的人类运动,包括眼神接触、唇同步和富有表现力的面部表情。


眼神接触对建立人机交互中的信任和亲密感至关重要。自然的眼睛运动需要与颈部运动协调,确保符合人类心理物理原理。唇同步则将音频与机器人头部唇部运动匹配,对于真实的人机交互至关重要。


表情生成使机器人能根据接收到的外部信息生成拟人化表情。方法可分为基于视觉、音频、触觉和多模态数据的表情生成。例如,Hu等人开发的Emo机器人使用两个深度学习模型预测人类面部表情并生成运动命令。


3.2.3 拟人化心理学


在第三阶段,拟人化人形机器人头部整合了拟人化心理学,使用情感模型和情感状态管理系统模拟人类情感反应。


情感模型包括离散型(如Ekman的六种基本情感)、维度型(如Russell的二维效价-唤醒模型)和其他专门类型。基于情感模型,情感状态管理系统结合实时交互数据和机器人设定的性格来细化情感表达。例如,Han等人提出的方法使用模糊Kohonen聚类网络生成自然表情,实现情感的平滑过渡。


4. 人形机器人身体组件


人形机器人旨在复制人类的身体和认知能力,其组件是硬件和软件系统的复杂组合。


4.1 硬件架构


4.1.1 机械结构和自由度分析


人形机器人的机械结构在决定机器人的多功能性和复制人类运动的效率方面起着关键作用。自由度(DOF)是定义机器人运动范围和执行复杂任务能力的关键指标。

为实现多功能性,研究人员设计了受人类骨骼系统启发的机械结构,通常允许20-40个自由度。优化过程包括减少执行器数量以减轻重量,将质量集中在躯干附近以减少四肢惯性,以及限制关节灵活性以保持控制精度。


关节是人形机器人运动能力的关键。常见做法是使用级联减速齿轮或谐波驱动器增加扭矩,执行器通常远程安装,通过各种机构驱动关节。上肢机械结构设计中,先进人形机器人如Unitree G1的手臂通常有七个自由度,以避免运动中的奇点,确保更广泛的运动范围和灵活性灵巧手通常每只手有6到20个自由度。下肢结构通常包含六个自由度,包括髋关节、膝关节和踝关节。



4.1.2 传感器系统


传感器为人形机器人提供了与环境交互所需的感官输入。


视觉传感器大多数先进人形机器人配备激光雷达、RGB(-D)相机或两者组合。RGB(-D)相机提供视觉和实时深度信息,但在低光或强光环境中可能不准确。激光雷达提供高度准确的深度数据,不受环境光影响,但需要较高的计算能力处理。


触觉传感器触觉对理解复杂场景和精细操作至关重要。常见触觉传感器包括阵列传感器(压电、电容和电阻式)和基于视觉的触觉传感器。尽管后者具有更高分辨率,但尺寸较大,阻碍了与灵巧手的集成。


听觉传感器麦克风对人形机器人与环境和人类的通信至关重要。2、4或6麦克风阵列最常用,麦克风数量增加提高定位准确性,但也增加计算成本。


控制传感器/力矩传感器(通常由应变片制成)和惯性测量单元(IMU,集成加速度计、陀螺仪等)用于基本控制。IMU数据会随时间产生累积误差,通常需要与视觉传感器结合校正。


4.1.3 动力系统


动力系统对人形机器人实现精确运动和高效操作至关重要,其选择和配置直接影响机器人的敏捷性、稳定性、精度和整体操作效率。


伺服电机高度集成的驱动系统,以高精度、快速响应和出色控制性能为特点,通常用作小型关节和手部组件的驱动器。能实现高精度定位和快速响应,但在高速运行和频繁启停时能耗较高。


液压系统通过流体压力传递力,主要应用于需要高负载能力和功率的场景,如下肢。能提供较大输出力和精确力控制,但涉及复杂管道和阀门网络,能量转换效率相对较低。


气动系统通过压缩空气驱动执行器,适合中低负载应用。结构简单、组件少,维护容易,能快速响应,提供良好的灵活性控制,但精度有限且输出功率较低。


4.2 软件架构



人形机器人身体的软件架构分为操作系统和通信方案。


操作系统包括实时操作系统(RTOS)和机器人操作系统(ROS)。RTOS如QNX和VxWorks在可靠性和精度方面至关重要,而开源的Xenomai和PREEMPT_RT更经济实惠。ROS提供了用于构建机器人应用的工具、库和约定,支持广泛的硬件平台。


通信方案EtherCAT是一种高性能工业以太网协议,在人形机器人中广泛使用。它实现了控制器与多个伺服驱动器和传感器之间的实时数据传输,具有低延迟、高刷新率和分布式时钟同步能力。


5. 人形机器人的关键技术


人形机器人依赖多种关键技术使其能够自主运行并与环境有效互动,包括环境感知、自主导航、运动控制和智能操作。


5.1 环境感知


环境感知算法使用传感器信号建模机器人自身状态及其周围环境,分为内部状态估计和外部环境感知。



状态估计高精度、低延迟的姿态估计是实现自主导航、人机交互和鲁棒控制的基础。姿态估计通常整合来自多种传感器的观测,包括视觉、惯性测量单元和腿部里程计。视觉前端可分为直接方法和间接方法,后端则通过滤波或优化方法解决最大后验估计问题。


鲁棒定位机器人视觉定位通过将机器人的视觉观测与预先存在的地图匹配来估计位置和方向。定位过程包括位置识别(找到最相似的参考帧)和姿态估计(解决当前帧与参考帧之间的相对姿态)。主要挑战包括视觉外观变化、视角变化、感知别名和可扩展性。


三维占用预测三维占用预测输出体素级状态和语义标签,对机器人决策和路径规划至关重要。相关研究从MonoScene到VoxFormer、TPVFormer等不断发展,基准测试如OpenOccupancy和SurroundOcc的建立促进了该领域研究。然而,人形机器人的运动环境比自动驾驶车辆更复杂,对感知模型提出了更高要求。


5.2 自主导航



人形机器人导航框架通常包括全局规划、局部规划和脚步规划三个部分。


全局规划传统全局路径规划算法依赖预建地图,使用图搜索或基于采样的方法生成无碰撞路径。近年来,稀疏拓扑地图被用于替代密集地图,减少计算成本,同时保留关键信息。多模态导航(使用视觉和语言线索)也是一个新兴研究方向。


局部规划处理动态障碍物避让。基于规则的方法使用模块化设计,计算效率高且可解释,但适应性有限;基于监督学习的方法从专家示范数据中学习,但依赖数据集分布;基于强化学习的方法通过试错学习策略,提供灵活性和适应性,但安全性和可解释性需要增强。


脚步规划选择合适的脚步位置对提高机器人移动性至关重要。启发式方法在平坦表面有效,而基于优化的方法能根据特定标准找到最优解。近期研究将基于优化的精确轨迹与基于学习的鲁棒控制策略相结合,显著提升了越野性能。


5.3 运动控制


运动控制使人形机器人能在复杂环境中使用四肢导航,面临在行走、奔跑或穿越不平坦地形时保持平衡的挑战。


基于模型的方法核心是平衡控制器,研究基于运动学和动力学建模的稳定性标准和规划控制方法。稳定性标准如零力矩点(ZMP)、压力中心(CoP)和捕获点在人形机器人控制中广泛采用。质心(CoM)运动规划方法、混合零动态(HZD)方法和模型预测控制(MPC)也是常用技术。这些方法具有高可解释性,但依赖准确建模和手动参数调整。



基于学习的方法利用数据驱动技术从经验中学习运动策略,适用于传统模型难以捕捉复杂互动的环境。基于强化学习(RL)的控制器从机器人传感器接收观测状态和参考轨迹,控制机器人动作。运动重定向技术将源角色的运动数据转移到目标角色,如Holden等人使用共享潜在变量模型适应不同人形角色间的运动。这些方法在处理高自由度、复杂动力学模型和传感器限制方面表现优异。


5.4 智能操作



智能操作是区分人形机器人与简单机器人系统的关键能力,涉及任务规划、感知和运动控制的复杂集成。


任务规划确定实现特定目标所需的动作序列。包括基于符号推理的任务规划(如层次化规划、约束驱动、采样驱动和基于优化的规划)、大型语言模型实现的任务规划(如Ahn等人将LLMs与现实世界背景结合)和基于闭环LLM的自校正任务规划(如W. Huang等人提出的基于反馈的内在推理机制)。



技能学习训练机器人获取和改进执行任务所需的运动技能。单任务技能学习针对特定动作,如灵巧手操作和双臂协调;多任务技能学习开发统一策略处理多种任务,利用大型视觉语言模型提取结构化任务和环境信息;长时操作涉及长时间内执行一系列动作的任务,通常通过层次化强化学习或层次化模仿等方法解决。



6. 潜在应用场景


人形机器人有广泛的潜在应用领域,每个领域提供独特的机遇和挑战。


普通工人随着工业化国家人口老龄化和劳动力短缺,人形机器人可替代传统劳动力执行制造业中的重复性和枯燥任务。例如,特斯拉的Optimus在机器人工厂中展示了应用潜力。


互动服务提供者人形机器人可在餐厅或旅游景点担任导游,或在公司担任接待员。如Pepper设计用于在商业环境中帮助人们互动,Promobot可作为博物馆工作人员。


家庭助手随着技术进步,家庭机器人将更加可靠,不仅协助基本家务,还可照顾老年人和病人,帮助行走、取放物品、进行康复训练,并监控健康状况。


探险者和救援者人形机器人可在危险环境如地下矿山、核电站和火灾现场执行任务,甚至进入人类无法到达的区域。NASA的Valkyrie机器人被设想用于空间探索任务。


7. 开放式挑战与总体趋势


随着人形机器人向更广泛应用迈进,必须解决几个关键挑战,同时把握新兴趋势,以充分发挥其潜力。



7.1 开放式挑战


外观设计取得类似人类特质与简化之间的平衡,避免“恐怖谷”效应。拟人化机器人需要更精细的皮肤纹理模拟材料、仿生皮肤和先进触觉材料,以增强真实感。


情感互动实现自然微表情需要高自由度执行器、微型化机械设计和柔软灵活材料。多模态情感感知要求机器人通过视觉、听觉和触觉线索读取人类情感,同时能自动调整并逐渐表达情感。


安全与稳健性确保人形机器人在获得更大自主性和互联性的同时,能抵抗网络攻击、故障和不可预测的环境条件,这对敏感领域的部署至关重要。


7.2 总体趋势


成本效益的机器人平台降低研发和制造成本是使人形机器人在消费市场广泛采用的关键。随着商业化和大规模生产,价格有望下降,促进更广泛应用。


模块化和接口标准化开发标准化、可互换组件的机器人,创造更适应性强的系统,更易维护、升级和定制。这种模块化方法减少开发时间,降低成本,促进创新。


具身智能人形机器人需要准确感知环境,包括物体、障碍物和人类情感意图。自我学习能力、安全性和伦理考虑也至关重要。更灵活的手部结构和抓取操作策略将实现接近自然手部的灵活性和多功能性。


通过解决这些挑战并顺应发展趋势,人形机器人将朝着具身智能发展,实现更高水平的自主性、灵活性和人机协作,促进在各种领域的广泛应用,从家庭护理到医疗保健,再到工业服务。


论文链接:

https://onlinelibrary.wiley.com/doi/10.1002/smb2.12008


(文:机器人大讲堂)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往