随着机器人学习和人类演示数据的不断增加,行为克隆方法逐渐成为机器人领域的研究热点。行为克隆通过模仿人类专家的演示来学习控制策略,但是现有方法在处理人类演示的强时间依赖性和大风格变异性方面仍面临不少挑战。
为了解决这些问题,近日美国斯坦福大学计算机科学家和助理教授切尔西·芬(Chelsea Finn)带领的研究团队,提出了基于动作分块(Action Chunking)策略的一种双向解码(Bidirectional Decoding, BID)方法,能够在保持动作分块优点的同时,提高了机器人策略在复杂任务中的表现。
目前该论文已被ICLR 2025接收,论文第一作者为斯坦福大学博士后刘跃江,目前在斯坦福AI实验室从事模型的研究工作。
▍动作分块策略的分析
动作分块策略通过预测未来多个时间步的动作序列,并在执行时采用部分或全部序列,从而减少有效控制范围。这种方法在实验室环境中显示出显著的优势,能够捕捉演示中的时间依赖性,如空闲暂停和潜在策略。然而,在实际应用中,特别是在随机环境中,动作分块可能导致反应能力下降,因为减少了对最新状态观测的访问。
为了理解动作分块如何影响学习到的策略与演示者之间的偏差,研究人员首先需要分析动作分块策略在训练和部署时的特性。在训练阶段,动作分块策略通过最小化模型预测动作分布与人类专家动作分布之间的散度来优化。然而,在部署时,策略的执行依赖于特定的动作范围(action horizon),这通常小于预测长度(prediction length)。
应用于具有动作分块的机器人策略的不同推理方法
动作分块策略的有效性取决于上下文长度(context length)和动作范围的选择。较短的上下文长度可以减少过拟合,但可能无法充分捕捉演示中的时间依赖性。较长的动作范围虽然能改善一致性,但在随机环境中可能降低反应能力。因此,动作分块策略在实际应用中面临一致性和反应性的权衡。
为了量化动作分块策略的一致性和反应性权衡,研究人员引入了两个关键概念:期望观测优势(Expected Observation Advantage, α)和最大推理劣势(Maximum Inference Disadvantage, ϵ)。期望观测优势反映了由于观测到更多状态信息而带来的性能提升,而最大推理劣势则量化了由于未观测到状态信息而导致的推理误差。
通过理论分析,研究人员证明了在不同环境条件下(如确定性环境和随机环境),动作分块策略的性能表现存在差异。在确定性环境中,较长的动作范围能够显著改善性能,因为可以基于更多历史动作进行推理。然而,在随机环境中,较短的动作范围更为有利,因为能够更快速地响应最新状态变化。
▍双向解码方法的底层逻辑与具体实现
为了解决动作分块策略的一致性和反应性权衡问题,研究人员提出了双向解码(BID)方法。BID方法通过在每个时间步采样多个预测,并根据两个准则选择最优预测:向后一致性(backward coherence)和向前对比(forward contrast)。向后一致性鼓励选择与之前决策一致的样本,以保持时间一致性;向前对比则通过比较候选样本与更强和更弱策略的输出,选择具有高未来可能性的样本,以提高反应性。
在Franka Panda机器人上进行真实世界物体交付任务的人类演示
在BID方法的实现中,研究人员首先从一个强策略和一个弱策略中分别采样N个动作序列,构建初始样本集A和A’。然后,研究人员计算每个样本的向后损失L_B,并选择K个具有最小向后损失的样本,分别构成正样本集A+和负样本集A-。接下来,团队计算每个候选样本的向前损失L_F,并从正样本集中选择具有最小总损失(向后损失+向前损失)的样本作为最终执行动作。
这种方法通过增加候选样本的数量,提高了在闭环操作中恢复时间一致性的可能性。同时,通过比较不同策略的输出,BID方法能够在保持时间一致性的同时,提高对环境变化的反应能力。
机器人的任务是拿起一个杯子 把它放在附近的碟子上
值得一提的是BID方法的优势在于其模型无关性、计算效率和易于实现。它不需要对原始策略进行修改,而是通过样本选择来干预模型分布。此外,BID方法的所有步骤都可以并行计算,因此在现代GPU设备上具有较低的计算开销。
▍实验验证与分析
为了验证理论分析的正确性,研究人员首先在一维状态空间中进行诊断实验。实验结果验证了在不同噪声水平下,动作范围对策略性能的影响。在确定性环境中,较长的动作范围能够更准确地捕捉专家的空闲动作分布;而在随机环境中,较短的动作范围则表现出更好的性能。
在一维模拟中作用范围h对空闲动作的影响
在仿真实验中,团队评估了BID方法在七个机器人操作任务上的表现。实验结果表明,BID方法在所有任务上均显著优于现有推理方法,如Vanilla、Warmstart和EMA。特别是在随机噪声较高的环境中,BID方法表现出更强的鲁棒性和更高的成功率。
扩散策略闭环操作的不同推理方法的比较
此外团队还评估了BID方法的可扩展性和兼容性。实验结果显示,随着样本数量的增加,BID方法的性能持续提升,且没有饱和的迹象。值得注意的是,BID方法与现有推理方法(如EMA)相结合时,能够进一步提高性能增益。
BID受益于大样本量(左),并补充了现有的推理方法(右)。
为了验证BID方法在实际应用中的有效性,研究团队在两个动态物体交互任务上进行了真实世界实验。实验结果表明,BID方法在处理动态目标时表现出更高的成功率和更强的适应性。特别是在动态抓取任务中,BID方法的成功率是现有方法的两倍以上。
▍结语与未来:
整体来看,BID方法与近期提出的回退视角(receding horizon)和时间集成(temporal ensembling)方法相比,具有明显优势。回退视角方法通过选择适中的动作范围来折中一致性和反应性,但在两者都存在明显的短板,时间集成方法通过平均多个决策来加强跨块依赖性,但在连续决策落入不同模式时可能引入不利影响。BID方法则通过专门的行为搜索更有效地解决跨块依赖性问题,并且与现有方法不互斥。
研究人员表示,尽管BID方法在提高动作分块策略性能方面表现出色,但依旧有不少改进的空间,例如在低成本机器人上的高频操作中可能仍然昂贵,未来团队研究方向会聚焦在探索批量大小受限的情况下生成高质量且多样的动作序列的算法。
开源地址:https://bid-robot.github.io/
论文地址:https://arxiv.org/pdf/2408.17355
(文:机器人大讲堂)