
随着人工智能和机器人技术的飞速发展,人形机器人的开发逐渐成为研究和应用的热点。人形机器人不仅在工业自动化、服务机器人等领域具有巨大潜力,还在学术研究中为探索智能体的感知、决策和行动提供了重要平台。英伟达(NVIDIA)在2025年3月18日的GTC大会上发布了全球首个开源通用人形机器人基础模型——GR00T N1。这一模型的发布标志着人形机器人开发进入了一个新的阶段,为全球开发者提供了一个强大的工具,加速了通用机器人技术的发展。
一、项目概述
GR00T N1 是英伟达推出的开源通用人形机器人基础模型,旨在通过多模态输入(如语言、图像)实现多样化环境中的操作任务。该模型基于大规模人形机器人数据集训练,结合真实数据、合成数据和互联网视频数据,能够适应特定机器人形态、任务和环境。GR00T N1 的核心架构受到人类认知原理的启发,采用双系统架构,包括一个快速思考的动作模型(System 1)和一个慢速思考的视觉–语言模型(System 2)。

二、技术架构
GR00T N1 的技术架构包括两个主要部分:
1. 视觉–语言模型(System 2):
-
基于 NVIDIA-Eagle 和 SmolLM-1.7B 构建,负责用视觉和语言指令理解环境,进行推理和规划,输出动作计划。
-
该模型能够处理多模态输入,包括视觉图像和自然语言指令,从而实现复杂的任务规划和决策。
2. 扩散变换器(System 1):
-
作为动作模型,将视觉–语言模型的计划转化为精确的连续动作,控制机器人运动。
-
该模型通过扩散过程生成连续的动作序列,确保机器人能够平滑、准确地执行任务。
这种双系统架构类似于人类的快慢思维处理方式,其中 System 1 负责快速响应和直觉反应,而 System 2 负责深思熟虑的决策制定。

三、主要功能
1. 通用操作任务执行:在多样化环境中执行各种操作任务,例如抓取、搬运、双臂协调操作等。
2.多模态输入处理:同时处理语言指令和视觉图像,机器人根据自然语言指令执行复杂的操作任务。
3. 跨机器人形态适应性:适应不同类型的机器人平台(如 Fourier GR-1 和 1X Neo),实现通用性。
4.复杂任务推理与规划:执行需要持续上下文理解和多种技能整合的复杂多步任务。
5.高效数据利用与训练:结合互联网规模数据、合成数据和真实机器人数据进行预训练,显著提升性能和泛化能力,减少对大规模标注数据的依赖。
四、应用场景
1. 物流与仓储
在物流与仓储领域,GR00T N1 可以显著提升货物处理的效率和准确性。通过多模态输入处理能力,人形机器人能够理解自然语言指令并执行复杂的操作任务,例如:
-
货物抓取与搬运:机器人可以根据指令抓取不同形状和重量的货物,并将其搬运到指定位置。
-
货架整理与补货:机器人可以自动整理货架,检测货物短缺并及时补货,减少人工干预。
-
库存盘点:利用视觉输入,机器人可以快速扫描货架上的货物,进行库存盘点,确保库存数据的准确性。
2. 制造业
在制造业中,GR00T N1 可以执行高精度的装配和质量检测任务,提升生产效率和产品质量:
-
零部件装配:机器人可以精确地抓取和装配复杂的零部件,减少人为错误,提高生产效率。
-
质量检测:通过视觉输入,机器人可以检测产品表面的缺陷和质量问题,及时发现并处理异常。
-
生产线维护:机器人可以对生产设备进行巡检,发现潜在故障并报告,减少停机时间。
3. 零售行业
在零售环境中,GR00T N1 可以提供多种服务,提升顾客购物体验:
-
货架整理与补货:机器人可以自动整理货架,确保商品摆放整齐,及时补货。
-
顾客服务:机器人可以为顾客提供信息查询和商品推荐服务,提升购物体验。
-
库存管理:通过实时监控库存,机器人可以及时通知工作人员补货,减少缺货情况。
4. 医疗保健
在医疗保健领域,GR00T N1 可以辅助医护人员,减轻他们的工作负担:
-
康复训练:机器人可以辅助患者进行康复训练,提供精确的动作指导和反馈。
-
医疗物资搬运:机器人可以搬运医疗设备和物资,减少医护人员的体力劳动。
-
病房巡检:机器人可以对病房进行巡检,记录患者的生命体征,及时发现异常情况。
5. 工业检查与维护
在工业环境中,GR00T N1 可以执行设备检查和维护任务,降低人工成本:
-
设备巡检:机器人可以对生产设备进行定期巡检,检测设备的运行状态,发现异常并报告。
-
维护操作:机器人可以执行一些简单的维护操作,如更换滤芯、加油等,减少人工干预。
-
环境监测:机器人可以监测工作环境中的温度、湿度、气体浓度等参数,确保工作环境的安全。
6. 家庭与服务
在家庭和服务领域,GR00T N1 可以提供多种服务,提升生活质量:
-
家务劳动:机器人可以执行家务劳动,如打扫卫生、洗衣服、整理房间等。
-
陪伴与互动:机器人可以与家庭成员互动,提供陪伴和娱乐服务。
-
智能助手:机器人可以作为智能助手,帮助家庭成员完成各种任务,如购物、预约等。
五、快速使用
1. 环境准备
克隆仓库并创建 Conda 环境:
git clone https://github.com/NVIDIA/Isaac-GR00T
cd Isaac-GR00T
conda create -n gr00t python=3.10
conda activate gr00t
pip install --upgrade setuptools
pip install -e .
pip install --no-build-isolation flash-attn==2.7.1.post4
2. 数据准备
数据需按照 LeRobot 兼容格式组织。具体格式如下:
.
├─meta
│ ├─episodes.jsonl
│ ├─modality.json
│ ├─info.json
│ └─tasks.jsonl
├─videos
│ └─chunk-000
│ └─observation.images.ego_view
│ └─episode_000001.mp4
│ └─episode_000000.mp4
└─data
└─chunk-000
├─episode_000001.parquet
└─episode_000000.parquet
使用 `LeRobotSingleDataset` 类加载数据:
from gr00t.data.dataset import LeRobotSingleDataset
from gr00t.data.embodiment_tags import EmbodimentTag
from gr00t.data.dataset import ModalityConfig
from gr00t.experiment.data_config import DATA_CONFIG_MAP
# 获取数据配置
data_config = DATA_CONFIG_MAP["gr1_arms_only"]
# 获取模态配置和转换
modality_config = data_config.modality_config()
transforms = data_config.transform()
# 加载数据集
dataset = LeRobotSingleDataset(
dataset_path="demo_data/robot_sim.PickNPlace",
modality_configs=modality_config,
transforms=transforms,
embodiment_tag=EmbodimentTag.GR1, # 使用的机器人形态
)
# 示例:访问数据
dataset[5]
3. 推理
加载预训练模型并运行推理:
from gr00t.model.policy import Gr00tPolicy
from gr00t.data.embodiment_tags import EmbodimentTag
# 加载模态配置和转换
modality_config = ComposedModalityConfig(...)
transforms = ComposedModalityTransform(...)
# 加载数据集
dataset = LeRobotSingleDataset(.....<Similar to the loading section above>....)
# 加载预训练模型
policy = Gr00tPolicy(
model_path="nvidia/GR00T-N1-2B",
modality_config=modality_config,
modality_transform=transforms,
embodiment_tag=EmbodimentTag.GR1,
device="cuda"
)
# 运行推理
action_chunk = policy.get_action(dataset[0])
也可以使用提供的脚本运行推理服务:
python scripts/inference_service.py --model_path nvidia/GR00T-N1-2B --server
在另一个终端运行客户端模式:
python scripts/inference_service.py --client
4. 微调
使用提供的脚本对模型进行微调:
# 首先运行 --help 查看可用参数
python scripts/gr00t_finetune.py --help
# 然后运行微调脚本
python scripts/gr00t_finetune.py --dataset-path ./demo_data/robot_sim.PickNPlace --num-gpus 1
也可以从 HuggingFace 下载示例数据集:
huggingface-cli download nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim \
--repo-type dataset \
--include "gr1_arms_only.CanSort/**" \
--local-dir $HOME/gr00t_dataset
推荐的微调配置是将批量大小调整到最大,并训练20k步。
5. 评估
使用提供的脚本对模型进行离线评估:
python scripts/inference_service.py --server \
--model_path <MODEL_PATH> \
--embodiment_tag new_embodiment
运行离线评估脚本:
python scripts/eval_policy.py --plot \
--dataset_path <DATASET_PATH> \
--embodiment_tag new_embodiment
评估结果将显示真实动作与预测动作的对比图,以及未归一化的均方误差(MSE),这可以用来判断策略在数据集上的表现。
结语
GR00T N1 的发布为通用人形机器人开发提供了强大的工具,加速了机器人技术的发展。它不仅降低了开发门槛,还通过开源数据和模型促进了社区的协作与创新。GR00T N1 的双系统架构和多模态输入处理能力使其在复杂任务执行和适应性方面表现出色,为未来人形机器人的发展奠定了坚实的基础。
项目地址:https://github.com/NVIDIA/Isaac-GR00T
AI大模型+具身智能2025·系列
1.清华发布UniAct:仅需50条数据,快速适配新机器人!跨平台泛化能力震惊行业
2.斯坦福HumanPlus:人形机器人实时控制与模仿学习的完美结合!
(文:小兵的AI视界)