
随着人工智能技术的飞速发展,机器人技术逐渐从实验室走向实际应用。然而,传统的机器人系统往往依赖于复杂的编程和高昂的硬件成本,限制了其广泛应用。近年来,基于视觉–语言模型(VLM)的机器人技术成为研究热点。Hugging Face开源的SmolVLA项目,以其轻量级、高效的特点,为机器人技术的普及和应用提供了新的可能性。
一、项目概述
SmolVLA是由Hugging Face开源的一个轻量级视觉–语言–行动(VLA)模型,专为经济高效的机器人设计。该模型拥有4.5亿参数,能够在消费级GPU甚至CPU上运行,支持在MacBook等设备上部署。SmolVLA基于开源数据集训练,数据集标签为“lerobot”,并引入了异步推理堆栈,显著提高了机器人的响应速度和任务吞吐量。它在多模态输入处理、动作序列生成等方面表现出色,适用于多种机器人应用场景,如物体抓取与放置、家务劳动、货物搬运等。

二、技术原理
(一)视觉–语言模型(VLM)
SmolVLA使用SmolVLM2作为其VLM主干,包含一个SigLIP视觉编码器和一个SmolLM2语言解码器。视觉编码器通过像素洗牌操作限制每帧图像的视觉Token数量为64个,大大减少了处理成本。同时,SmolVLA跳过VLM中的一半层进行计算,将计算成本减半,同时保持了良好的性能。
(二)动作专家
动作专家是一个轻量级的Transformer模块,包含约1亿参数。它基于VLM的输出,生成未来机器人的动作序列块。动作专家采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。
(三)异步推理
SmolVLA引入了异步推理策略,将动作执行与感知和预测分离。在这种策略下,机器人可以一边执行当前动作,一边处理新的观察并预测下一组动作,消除了推理延迟,提高了控制频率。
三、主要功能
(一)多模态输入处理
SmolVLA能够处理多种输入,包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征,将语言指令标记化后输入解码器,将传感运动状态通过线性层投影到一个标记上,与语言模型的标记维度对齐。
(二)动作序列生成
模型包含一个动作专家模块,能够基于视觉–语言模型(VLM)的输出,生成未来机器人的动作序列块。动作专家采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。
(三)高效推理与异步执行
SmolVLA引入了异步推理堆栈,将动作执行与感知和预测分离,实现更快、更灵敏的控制,使机器人可以在快速变化的环境中更快速地响应,提高了响应速度和任务吞吐量。
四、应用场景
(一)物体抓取与放置
SmolVLA可以控制机械臂完成复杂的抓取和放置任务。例如,在工业生产线上,机器人需要根据视觉输入和语言指令,准确地抓取零件并将其放置到指定位置。
(二)家务劳动
SmolVLA可以应用于家庭服务机器人,帮助完成各种家务劳动。例如,机器人可以根据自然语言指令,识别并清理房间中的杂物,或者将物品放置到指定位置。
(三)货物搬运
在物流仓库中,SmolVLA可以控制机器人完成货物的搬运任务。机器人可以根据视觉输入识别货物的位置和形状,结合语言指令,生成最优的搬运路径和动作序列,提高货物搬运的效率和准确性。
五、快速使用
(一)环境安装
在开始使用SmolVLA之前,需要安装LeRobot库以及相关的依赖项。可以通过以下命令安装:
pip install -e ".[smolvla]"
(二)模型微调
可以使用预训练的SmolVLA模型进行微调,以适应特定的任务。以下是一个微调的示例命令:
python lerobot/scripts/train.py \
--policy.path=lerobot/smolvla_base \
--dataset.repo_id=lerobot/svla_so101_pickplace \
--batch_size=64 \
--steps=20000 \
--output_dir=outputs/train/my_smolvla \
--job_name=my_smolvla_training \
--policy.device=cuda \
--wandb.enable=true
(三)模型部署
SmolVLA支持在消费级GPU甚至CPU上部署,可以在MacBook等设备上运行。部署时,可以使用LeRobot框架提供的工具进行快速部署。
六、结语
SmolVLA作为Hugging Face开源的轻量级视觉–语言–行动模型,以其高效、轻量的特点,为机器人技术的普及和应用提供了新的思路。通过多模态输入处理、高效推理和异步执行等特性,SmolVLA在多种机器人应用场景中表现出色。未来,随着技术的进一步发展,SmolVLA有望在更多领域发挥重要作用。
七、项目地址
Hugging Face模型库:https://huggingface.co/lerobot/smolvla_base
arXiv技术论文:https://arxiv.org/pdf/2506.01844
(文:小兵的AI视界)