我在哪？要去哪？要怎么去？字节跳动提出Astra双模型架构助力机器人自由导航

机器之心发布

机器之心编辑部

在当今科技飞速发展的时代，机器人在各个领域的应用越来越广泛，从工业生产到日常生活，都能看到它们的身影。然而，现代机器人导航系统在多样化和复杂的室内环境中面临着诸多挑战，传统方法的局限性愈发明显。

一、传统导航瓶颈凸显，Astra 应势而生

在复杂的真实世界中，移动机器人想要安全可靠地行走，必须解决三大挑战：我要去哪？我在哪？我要怎么去？这正是目标定位、自我定位与路径规划三大导航核心问题。目标定位时，在某些应用中，目标可能通过自然语言或目标图像提示指定，这就需要系统理解提示并在地图中定位目标；自我定位要求机器人在地图中确定自身位置，尤其是在像仓库这样高度重复且缺乏全局地标的复杂场景中，传统导航系统常依赖人工地标，如 QR 码；路径规划又分为全局规划和局部规划，全局规划根据机器人位姿和目标位姿生成粗略路线，局部规划则负责在避开障碍物的同时到达全局路径上的中间路点。

为解决这些任务，传统导航系统通常由多个模块组成，包含多个小模型或基于规则的系统。近年来，基础模型的出现促使人们将小模型集成到更大的模型中以解决更多任务，但所需模型数量及如何有效整合仍有待探索。

为了突破传统导航系统的瓶颈，字节跳动研发了一种创新的双模型架构 Astra。

论文标题：Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning
网站：https://astra-mobility.github.io/

通过两大子模型：Astra-Global 与 Astra-Local，在环境理解感知与实时规划决策之间建立通路，为下一代智能体的 “通用导航能力” 打下基础。Astra 遵循 System 1/System 2 理念，Astra-Global 负责低频任务，如目标和自我定位；Astra-Local 管理高频任务，包括局部路径规划和里程计估计。这种架构的出现，为移动机器人导航领域带来了新的希望，有望彻底改变机器人在复杂室内环境中的导航方式。

图1: Astra模型概述

二、Astra 双模型架构揭秘，赋能机器人高效导航

1. Astra-Global：全局定位的智慧大脑

Astra-Global 作为 Astra 架构中的重要组成部分，犹如智慧大脑，承担着关键的低频任务，即自我定位和目标定位。它是一个多模态大语言模型（MLLM），能够巧妙地处理视觉和语言输入，在全局地图中实现精准定位。其核心在于利用混合拓扑语义图，将其作为上下文输入，使得模型能够依据查询图像或文本提示，在地图中准确找到对应的位置。

图2: Astra-Global 架构

在构建这个强大的定位系统时，离线映射是关键的第一步。研究团队提出了一种离线方法来构建混合拓扑语义图 G=(V,E,L)。在这个图中，V 代表节点集合，通过对输入视频进行时间下采样，并利用 SfM 估计近似的 6 自由度（DoF）相机位姿，将关键帧设为节点，这些节点编码了相机位姿和地标引用；E 是基于节点相对位姿关系建立的无向边集合，对于全局路径规划至关重要，它代表了几何连通性；L 则是地标信息集合，通过 Astra-Global 从每个节点的视觉数据中提取语义地标，丰富了地图的语义理解，地标存储了语义属性，并通过共视关系与多个节点相连。例如，在一个办公室场景中，拓扑地图构建确定了各个房间、走廊等位置的节点和连接关系，地标语义丰富则为这些节点添加了如 “会议室”“办公桌区域” 等地标信息。地标共视图表的构建进一步确保了不同节点间关于地标信息的一致性，使得机器人能够更全面地理解场景。

在实际定位过程中，Astra-Global 的自定位与目标定位功能展现出独特的优势。视觉 – 语言定位采用粗到精的两阶段过程。在粗定位阶段，模型分析输入图像和定位提示，检测地标并与预建地标地图建立对应关系，同时通过视觉一致性过滤，依据图像相似性进一步优化匹配结果，确定最终候选节点。如在一个仓库环境中，机器人通过摄像头获取图像，Astra-Global 能够识别出货架、叉车等地标，并与地图中的地标信息匹配，筛选出可能的位置。在精定位阶段，模型利用查询图像和粗定位输出的候选节点，从离线地图中采样参考地图节点，通过比较参考节点的视觉和位置信息，直接输出查询图像的预测位姿，实现高精度定位。基于语言的目标定位同样出色，模型根据自然语言指令，利用地图中地标已有的功能描述，识别相关地标，再通过地标到节点的关联机制，定位相关节点，获取目标位置的图像和 6 自由度位姿。比如，当用户发出 “找到打印机” 的指令时，Astra-Global 能迅速在地图中找到与 “打印机” 相关的地标节点，从而确定打印机的位置。

为了让 Astra-Global 具备强大的定位能力，研究团队采用了精心设计的训练方法。以 Qwen2.5-VL 为骨干，结合监督微调（SFT）和组相对策略优化（GRPO）。在 SFT 阶段，准备包含不同任务的多样化数据集，除了粗定位和精定位数据集外，还构建了如共视检测、共视图像选择、运动趋势估计等辅助任务数据集，以提升模型的空间理解能力。在 GRPO 阶段，针对视觉 – 语言定位任务，利用基于规则的奖励函数进行训练，奖励函数包括格式奖励、地标提取奖励、地图匹配奖励和额外地标奖励等，通过不断优化奖励函数，提升模型在定位任务中的表现。实验结果表明，GRPO 显著提升了 Astra-Global 在零样本场景下的泛化能力，如在未见过的家庭环境中，SFT + GRPO 方法的定位准确率达到 99.9%，超过同等数据量下 SFT-only 方法的 93.7% 。

2. Astra-Local：本地规划的智能助手

Astra-Local 则是 Astra 架构中负责高频任务的智能助手，它是一个多任务网络，能够从传感器数据中高效地生成局部路径并准确估计里程计。其架构包含三个核心组件：4D 时空编码器、规划头和里程计头，每个组件都发挥着不可或缺的作用。

图3: Astra-Local 架构

4D 时空编码器是 Astra-Local 的基础组件，它旨在取代传统移动性堆栈中的感知和预测模块。首先是 3D 空间编码器，它以 N 个环视图像为输入，通过 Vision Transformer（ViT）将图像编码为判别性特征表示，再利用 Lift-Splat-Shoot 将 2D 图像特征转换为 3D voxel 特征。为了训练 3D 空间编码器，采用自监督学习方式，通过 3D 体积可微神经渲染，利用深度和颜色图像进行监督。对于缺乏深度标签的情况，借助大尺度单目深度估计模型对齐稀疏深度传感器数据后生成伪深度标签。接着，4D 时空编码器在 3D 编码器的基础上进行训练，它以过去的 voxel 特征和未来时间戳为输入，通过 ResNet 和 DiT 模块预测未来 voxel 特征。经过预训练的 4D 时空编码器能够生成当前和未来的环境状态表示，为后续的路径规划和里程计估计提供有力支持。

规划头基于预训练的 4D 特征，结合机器人速度和任务信息（如目标位姿），通过基于 Transformer 的流匹配来生成可执行的轨迹。在复杂环境中，轨迹具有多模态特性，流匹配因其高效率成为实时系统中路径规划的理想方法。为了避免与各种障碍物发生碰撞，规划头引入了掩码 ESDF 损失。通过计算 3D 占用地图的欧几里得空间距离场（ESDF）图，并在 ESDF 图上添加 2D 地面真实轨迹掩码，有效地减少了碰撞率。实验结果显示，在包含许多未见拥挤场景的 OOD 数据集上，使用掩码 ESDF 损失的方法在碰撞率和综合得分方面都优于其他方法，充分证明了其在生成高质量轨迹方面的有效性。

里程计头的主要任务是利用当前和过去的 4D 特征以及额外的传感器数据（如 IMU、车轮数据）来预测机器人的相对位姿。它通过训练一个 Transformer 模型来融合不同传感器的信息，每个传感器模态的数据都经过特定的 tokenizer 处理，再结合模态嵌入和时间位置嵌入，输入到 Transformer 编码器中，最后利用 CLS token 预测相对位姿。在实验中，与基于两帧的基线方法相比，Astra-Local 的里程计头在多传感器融合和位姿估计方面表现出色，如在加入 IMU 数据后，旋转估计精度大幅提升，整体轨迹误差降低到约 2%，进一步加入车轮数据后，尺度稳定性和估计精度进一步增强，展示了其在多传感器数据融合方面的优势。

三、实验数据见证实力

为了全面评估 Astra 的性能，研究团队在多种不同的室内环境中展开了广泛且深入的实验，涵盖了仓库、办公楼和家庭等场景。这些实验不仅验证了 Astra 在理论上的创新架构和算法的有效性，更展示了其在实际应用中的潜力和可靠性。

1. 多模态定位能力

Astra-Global 的多模态定位能力通过一系列实验得到了验证。在处理文本和图像定位查询时，Astra-Global 表现出色。对于目标定位任务，它能够准确地根据文本指令在地图中识别出匹配的图像和位姿，例如当接收到 “找到休息的地方” 这样的指令时，Astra-Global 能够迅速定位到地图中沙发等休息区域的位置信息。与传统的视觉位置识别（VPR）方法相比，Astra-Global 具有较大优势。在细节捕捉方面，传统 VPR 方法常依赖全局特征，容易忽略像房间号这样的精细细节，而 Astra-Global 能够精准捕捉这些关键信息，避免在相似场景中出现定位错误。在视点变化的鲁棒性上，Astra-Global 基于语义地标进行定位，即使相机角度发生较大变化，地标之间的相对位置关系保持不变，使其能够更稳定地进行定位，而传统 VPR 方法在面对大的视点变化时往往会出现定位偏差。在位姿精度上，当存在多个相似候选位置时，Astra-Global 能够利用地标空间关系选择最佳匹配位姿，在 1 米距离误差和 5 度角误差范围内的位姿精度显著高于传统 VPR 方法，在仓库环境中的位姿精度比传统方法提升了近 30%+。

图4: 不同场景下Astra Global的定位精度都显著高于传统VPR方法

2. 规划与里程计性能

Astra-Local 中规划头和里程计头的性能同样在实验中得到了充分的评估。在规划头方面，研究团队将其与 ACT 和扩散策略（DP）等方法进行了对比。在碰撞率、速度和得分等指标上，使用基于 Transformer 的流匹配和掩码 ESDF 损失的 Astra-Local 规划头表现良好。在包含许多未见拥挤场景的 OOD 数据集上，Astra-Local 的碰撞率明显低于其他方法，同时能够保持较高的速度和综合得分，充分证明了掩码 ESDF 损失在减少碰撞风险方面的有效性。在里程计头方面，通过在包含同步图像序列、IMU 和车轮数据以及地面真实位姿的多模态数据集上进行实验，结果显示，与基于两帧 BEV-ODOM 的基线方法相比，Astra-Local 的里程计头在多传感器融合和位姿估计方面具有较大优势。加入 IMU 数据后，旋转估计精度大幅提升，整体轨迹误差降低到约 2%，进一步加入车轮数据后，尺度稳定性和估计精度进一步增强，有效提升了机器人在复杂环境中的运动控制和导航能力。

图5: 通过掩码esdf loss可以显著降低规划头的碰撞率

图6: 里程计任务头通过transformer有效的融合多传感器信息

四、未来展望

展望未来，Astra 有着广阔的发展前景和应用潜力。在更广泛的场景部署方面，Astra 有望拓展到更多复杂的室内环境，如大型商场、医院、图书馆等。在大型商场中，Astra 可帮助机器人快速定位商品位置，为顾客提供精准的导购服务；在医院里，能协助医疗机器人高效地运送药品和物资，提高医疗服务效率；在图书馆中，可助力机器人整理书籍、引导读者查找资料。

然而，Astra 目前也存在一些需要改进的地方。对于 Astra-Global 模块，当前的地图表示虽在信息损失和 token 长度上取得了一定平衡，但在某些情况下仍可能缺乏关键的语义细节，影响定位的准确性。未来，研究团队计划深入研究替代地图压缩方法，在优化效率的同时，最大限度地保留重要语义信息，以提升定位精度。此外，现有的定位仅依赖单帧观测，在特征缺失或高度重复的环境中可能会失效。为解决这一问题，后续将引入主动探索机制，让机器人能够主动感知周围环境，并将时间推理融入模型，利用序列观测实现更稳健的定位，使机器人在复杂环境中也能准确找到自身和目标的位置。

在本地导航与控制方面，Astra-Local 模块也有提升空间。在实际机器人部署中，受限于模型的泛化能力以及基于规则的回退系统在边缘情况下容易误触发，导致回退率不可忽视。为了增强对分布外（OOD）场景的鲁棒性，团队将通过改进模型架构和训练方法，使其能够更好地应对各种未知情况。同时，重新设计回退系统，使其更紧密地集成到整个系统中，实现更无缝的切换，提高系统的稳定性和可靠性。此外，还计划将指令跟随能力集成到模型中，使机器人能够理解和执行人类的自然语言指令，进一步拓展其在动态、以人为中心的环境中的可用性，实现更自然、高效的人机交互。

（文：机器之心）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复