跳至内容
具身智能与智能机器人的发展态势如何?2025年人工智能在工业制造领域的应用将迎来怎样的重大突破?据市场调研机构MarketsandMarkets预测,全球垂类AI应用市场规模将在2030年突破471亿美元,其中工业制造作为关键领域,正在加速向智能化生产与全流程自动化方向迭代,同时具身智能与智能机器人技术正在与传统工业制造领域深度融合。2025年将是具身智能从实验室迈向工厂的关键转折点,而人形机器人作为高阶形态,则有望在工业领域率先实现商用突破,重塑全球制造业竞争格局。
近日,中国工程院院士、博士生导师 ,中国科学院沈阳自动化研究所研究员,机器人与智能系统全国重点实验室主任于海斌,在沈阳市高新技术企业协会主办的“创新聚沈·向阳而行”大会上围绕具身智能与智能机器人展开深度分享。
人工智能(AI)自1956年达特茅斯会议正式提出以来,经历了数次技术浪潮与寒冬。于海斌院士指出,AI的发展可分为四个阶段:
符号逻辑推理阶段(1950s-1980s):以知识表达和专家系统为核心,但受限于知识获取的困难,最终因实用性不足进入第一次寒冬。
神经网络连接阶段(1980s-2000s):辛顿(Geoffrey Hinton)等人提出反向传播算法,推动神经网络发展,但受限于算力和数据,应用场景有限。
深度学习阶段(2010s至今):以卷积神经网络(CNN)和斯坦福大学李飞飞团队构建的ImageNet数据库为标志,AI在图像识别等领域实现突破,识别率从60%提升至超越人类水平。
具身智能(Embodied AI)阶段(2020s起):AI从纯数据驱动转向与物理世界交互,强调智能体通过身体、环境与任务的协同实现认知与行为进化。
图灵早在计算机理论初期即提出两种智能路径——“离身智能”(如ChatGPT依赖纯数据推理)与“具身智能”(需与物理设备结合)。然而,具身智能因技术复杂度高长期滞后,直到机器人学、神经科学和心理学的交叉融合为其提供了新思路。
环境交互与智能发育的必然性:于海斌院士例举了一项科学实验,来印证环境交互与智能发育呈现正相关性,该实验反馈了智能的成长依赖与环境的动态互动作用。
来自麻省理工学院两位研究人员,把两只小猫放进了一个圆桶内,两只小猫都在圆筒内部绕圈运动。第一只小猫是白己走的;第二只小猫则被放在与柱体中心轴相连的小盒子里。两只小猫看到的东西完全相同。结果显示只有靠自己身体运动的小猫发育出了正常的视力。这进一步印证了“心灵手巧”的逆向逻辑——肢体动作的灵活性(如操作工具)会反向促进认知能力的提升。
具身智能三位一体的智能框架:具身智能强调“大脑-身体-环境”三位一体。其中大脑负责高层决策与意图理解(如大语言模型),身体通过传感器与执行器实现物理交互(如机械臂、仿生关节),环境提供动态反馈与训练场景(如仿真平台、真实物理空间)。三者协同构成闭环,使智能体能够通过试错学习适应复杂任务。
从“感知智能”到“行动智能”的跨越:传统AI擅长静态感知(如图像识别),但缺乏对物理世界的动态响应能力。波士顿动力(Boston Dynamics)的Atlas机器人通过深度学习与强化学习结合,实现了翻越障碍、适应地形变化等复杂动作,标志着具身智能在运动控制领域的突破。
数字人:中国通用人工智能研究院开发的“数字人通通”模拟人类从婴儿期开始的成长过程,通过与虚拟环境的交互(如听觉、触觉反馈)实现认知进化。这一尝试为研究人类智能发育提供了新范式,但也引发伦理争议——若机器人通过环境交互自主进化,人类是否可能失去控制?
机械臂与大语言模型的融合:谷歌RT-X平台将大语言模型(LLM)与机器人操作结合,使机械臂能够理解自然语言指令(如“整理房间”),并自主分解任务步骤(识别杂物、分类归置)。这一技术已在叠衣服、精细装配等场景中展现潜力,但其泛化能力仍受限于物理规则与数据多样性。
人形机器人的争议与前景:马斯克力推的Optimus人形机器人引发两极评价。支持者认为人形是通用化的终极形态,可适配人类环境(如楼梯、工具),而质疑者指出其成本高昂、技术冗余(如多关节驱动难题)。
于海斌院士认为,人形机器人的核心价值在于“本体硬件”与“智能算法”的协同突破。例如,开源算法(如波士顿动力的运动控制模型)大幅降低了本体研发门槛,而黄仁勋(英伟达CEO)布局的具身智能训练平台,或将推动行业标准化。
智能驾驶与低空经济:尽管全无人驾驶面临地面环境的极端复杂性(如突发行人、不规则道路),但网联汽车的辅助驾驶(如车道保持、自动泊车)和低空经济(无人机物流、巡检)已成为更可行的商业化方向。
在机器人技术路径未来发展趋势探讨方面,于海斌院士表示未来人形机器人肢体部分有很大的提升空间,如基于高能量密度的仿生驱动肢体。仿照人类心脏的高效供能机制,研发微型液压驱动与仿生肌肉,如德国费斯托的气动机械臂就是一个很好的参考方向,该机械臂核心优势在于其高精度控制与仿生设计的融合,拥有12个自由度,动作柔性且稳定,部分型号搭载AI技术实现自我学习优化,电磁阀寿命超3000万次,具备良好的性能和耐用性。
此外,生物融合也是未来机器人发展趋势。未来,我们可以通过培养生物细胞构建具有感知与驱动能力的“类器官”产品,尽管其生存环境要求苛刻,但为软体机器人提供了新思路。
小脑主要作用在于提升人形机器人的运动协调能力,运动控制依赖海量物理数据,而真实环境训练成本过高。目前国内已经有相对成熟的平台进行机器人的模拟训练,如国家地方共建人形机器人创新中心开发的,异构人形机器人训练场通过“虚拟-现实”迁移学习(Sim2Real),使机器人能在低成本场景中预训练动作(如行走、跳跃),再迁移至真实环境微调。
大脑提供决策模型与机器人的认知能力,目前多模态感知技术是主要方案,该方案融合视觉、触觉、力觉传感器,提升环境理解的全面性。在具体案例方面,北京大学电子学院程翔教授团队提出的“机器联觉”系统,通过智能融合通信与多模态感知信息,有效提升了机器人在复杂环境中的感知、决策与通信能力。
此外,于海斌院士也提到了如何解决大模型“灾难性遗忘”问题,实现机器人的终身学习方式。爱丁堡大学提出的增量强化学习框架是一个很好的解决“灾难性遗忘”的解决方案。它能够在保持已有知识的基础上,通过逐步增量式地更新策略,快速适应新环境或新任务,从而显著提升机器人在动态变化环境中的学习效率和性能表现,无需从头开始重新训练整个模型。
于海斌院士预测,未来十年,具身智能的算法与训练平台将快速发展,而硬件(如高精度传感器、仿生关节)受限于材料与工艺,进步速度相对缓慢。企业需优先布局软件生态(如仿真平台、数据链),而非盲目投入硬件研发。
此外具身智能缺乏统一理论体系(如认知科学的世界模型),但场景驱动的工程化应用(如仓储机器人、医疗外骨骼)将率先落地。国家需推动跨机构协作,解决数据确权与模型共享难题。
在通用终端的终极形态方面,于海斌院士认为人形机器人未必是唯一答案,具身智能可能通过“一脑多机”模式赋能多样化设备(如工业机床、家用电器)。例如,同一AI核心可同时调度无人机群与地面机器人,实现任务协同。
在伦理与安全方面,于海斌院士认为,若具身智能体通过环境交互自主进化,可能超出人类预设的边界。行业需提前建立伦理规范(如行为约束算法、人机权责界定),避免技术失控风险。
具身智能正在让AI从“虚拟大脑”向“物理实体”迭代,在技术演化的道路上,需要更加关注技术创新的有效性与产业化的可落地性。正如于海斌院士所言:“蓝海的意义在于未知,而未知需要勇气与智慧并存。”对产业从业者而言,打破学科壁垒、深化理论突破,聚焦场景刚需、参与生态共建或将成为抢占先机的关键。
(文:机器人大讲堂)