人形机器人优雅漫步,强化学习新成果!独角兽Figure创始人:之前大家吐槽太猛

白交 发自 凹非寺
量子位 | 公众号 QbitAI

注意看,机器人像人一样从容地走出大门了!

甚至,还有一整支机器人队伍迎面走来。

人形机器人独角兽Figure,再次带来他们的新成果——利用强化学习实现自然人形行走

跟之前版本的机器人相比,确实更像人了许多,而且步态更加轻盈,速度也更快。

网友们纷纷表示被惊艳到,甚至觉得像是太空行走

有一说一,自从与OpenAI取消合作后,这成果输出确实又快又多。

机器人像人一样自然行走

此次推出的,是经过强化学习训练的端到端神经网络。

根据官方介绍,主要分成三个部分:

强化学习:强化学习利用模拟试验和错误,教Figure 02 人形机器人如何像人一样行走。

模拟训练:通过高保真物理模拟器学习如何像人类一样行走,结果只需几个小时就能模拟出多年的数据。

Sim-to-Real:通过将仿真中的域随机化与机器人上的高频扭矩反馈相结合,模拟训练无需额外调整即可直接转换为真实硬件。

具体来看。

首先,利用强化学习技术,在GPU加速物理仿真中对新的行走控制器进行了全面训练,并在几个小时内收集了数年的仿真演示数据。

在模拟器中,数以千计的Figure 02机器人被并行模拟,每个机器人都有独特的物理参数。

然后,这些机器人将暴露在它们可能遇到的各种场景中,并通过单一神经网络策略学习如何操作它们。这包括遇到各种地形、致动器动态变化以及对绊倒、滑倒和推搡的反应。

使用强化学习学习到的策略可能会趋近于次优控制策略,无法捕捉到人类行走的风格属性。这包括以类似人类的步态行走,脚跟着地、脚尖离开、手臂摆动与腿部运动同步。

于是他们通过奖励机器人模仿人类的行走参考轨迹,将这种偏好注入到学习框架。这些轨迹为策略允许产生的行走方式建立了先验,而额外的奖励条款则优化了速度跟踪、功耗以及对外部扰动和地形变化的鲁棒性。

最后一步是将策略从模拟中提取出来,应用到真正的仿人机器人中。仿真机器人充其量只是高维机电系统的近似值,在仿真中训练的策略只能保证在这些仿真机器人上有效。

为了弥补这一 “模拟到现实的差距”,他们在模拟中结合使用了域随机化和机器人上的kHz-速率扭矩反馈控制

域随机化通过随机化每个机器人的物理属性,模拟策略可能需要运行的各种系统,从而弥合模拟与现实之间的差距。这有助于该策略在不进行任何额外微调的情况下,实现与物理机器人的 “零接触”。

用kHz速率闭环扭矩控制来运行策略输出,以补偿执行器建模中的误差。该策略对机器人与机器人之间的变化、表面摩擦力和外部推动力的变化都很稳健,在整个Figure 02 机器人群中实现了可重复的仿人行走。

于是乎,就看到了10个机器人同一步态行走,没有任何调整或变化。

接下来,他们计划将这一技术扩展到数千个 Figure 机器人。

人形机器人越来越像人了

之所以这次选择对机器人步态的改善,Figure创始人也说了,这并非是他们的首要任务,只是之前网友吐槽得多了,他们最终目标是商业运送机器人。

By the way,今年伊始海内外的人形机器人都密集亮相,诸多大厂企业开始投身机器人的布局当中,这不今天同一天,vivo宣布成立机器人Lab。

在这些机器人持续整活之中,能够看到他们举手投足之间着实越来越像人了

且不说跟大爷一样在公园遛弯、跑步、二人转之类。

还学会了人类的一些空翻、托马斯全旋等等杂技。

你还期待人形机器人哪些地方可以像人的?

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

— 

(文:量子位)

欢迎分享

发表评论