随着人工智能技术的飞速发展，机器人技术逐渐从实验室走向实际应用。然而，传统的机器人系统往往依赖于复杂的编程和高昂的硬件成本，限制了其广泛应用。近年来，基于视觉–语言模型（VLM）的机器人技术成为研究热点。Hugging Face开源的SmolVLA项目，以其轻量级、高效的特点，为机器人技术的普及和应用提供了新的可能性。

一、项目概述

SmolVLA是由Hugging Face开源的一个轻量级视觉–语言–行动（VLA）模型，专为经济高效的机器人设计。该模型拥有4.5亿参数，能够在消费级GPU甚至CPU上运行，支持在MacBook等设备上部署。SmolVLA基于开源数据集训练，数据集标签为“lerobot”，并引入了异步推理堆栈，显著提高了机器人的响应速度和任务吞吐量。它在多模态输入处理、动作序列生成等方面表现出色，适用于多种机器人应用场景，如物体抓取与放置、家务劳动、货物搬运等。

二、技术原理

（一）视觉–语言模型（VLM）

SmolVLA使用SmolVLM2作为其VLM主干，包含一个SigLIP视觉编码器和一个SmolLM2语言解码器。视觉编码器通过像素洗牌操作限制每帧图像的视觉Token数量为64个，大大减少了处理成本。同时，SmolVLA跳过VLM中的一半层进行计算，将计算成本减半，同时保持了良好的性能。

（二）动作专家

动作专家是一个轻量级的Transformer模块，包含约1亿参数。它基于VLM的输出，生成未来机器人的动作序列块。动作专家采用流匹配技术进行训练，通过引导噪声样本回归真实数据分布来学习动作生成，实现高精度的实时控制。

（三）异步推理

SmolVLA引入了异步推理策略，将动作执行与感知和预测分离。在这种策略下，机器人可以一边执行当前动作，一边处理新的观察并预测下一组动作，消除了推理延迟，提高了控制频率。

三、主要功能

（一）多模态输入处理

SmolVLA能够处理多种输入，包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征，将语言指令标记化后输入解码器，将传感运动状态通过线性层投影到一个标记上，与语言模型的标记维度对齐。

（二）动作序列生成

模型包含一个动作专家模块，能够基于视觉–语言模型（VLM）的输出，生成未来机器人的动作序列块。动作专家采用流匹配技术进行训练，通过引导噪声样本回归真实数据分布来学习动作生成，实现高精度的实时控制。

（三）高效推理与异步执行

SmolVLA引入了异步推理堆栈，将动作执行与感知和预测分离，实现更快、更灵敏的控制，使机器人可以在快速变化的环境中更快速地响应，提高了响应速度和任务吞吐量。

四、应用场景

（一）物体抓取与放置

SmolVLA可以控制机械臂完成复杂的抓取和放置任务。例如，在工业生产线上，机器人需要根据视觉输入和语言指令，准确地抓取零件并将其放置到指定位置。

（二）家务劳动

SmolVLA可以应用于家庭服务机器人，帮助完成各种家务劳动。例如，机器人可以根据自然语言指令，识别并清理房间中的杂物，或者将物品放置到指定位置。

（三）货物搬运

在物流仓库中，SmolVLA可以控制机器人完成货物的搬运任务。机器人可以根据视觉输入识别货物的位置和形状，结合语言指令，生成最优的搬运路径和动作序列，提高货物搬运的效率和准确性。

五、快速使用

（一）环境安装

在开始使用SmolVLA之前，需要安装LeRobot库以及相关的依赖项。可以通过以下命令安装：

pip install -e ".[smolvla]"

（二）模型微调

可以使用预训练的SmolVLA模型进行微调，以适应特定的任务。以下是一个微调的示例命令：

python lerobot/scripts/train.py \  --policy.path=lerobot/smolvla_base \  --dataset.repo_id=lerobot/svla_so101_pickplace \  --batch_size=64 \  --steps=20000 \  --output_dir=outputs/train/my_smolvla \  --job_name=my_smolvla_training \  --policy.device=cuda \  --wandb.enable=true

（三）模型部署

SmolVLA支持在消费级GPU甚至CPU上部署，可以在MacBook等设备上运行。部署时，可以使用LeRobot框架提供的工具进行快速部署。

六、结语

SmolVLA作为Hugging Face开源的轻量级视觉–语言–行动模型，以其高效、轻量的特点，为机器人技术的普及和应用提供了新的思路。通过多模态输入处理、高效推理和异步执行等特性，SmolVLA在多种机器人应用场景中表现出色。未来，随着技术的进一步发展，SmolVLA有望在更多领域发挥重要作用。

七、项目地址

Hugging Face模型库：https://huggingface.co/lerobot/smolvla_base

arXiv技术论文：https://arxiv.org/pdf/2506.01844

（文：小兵的AI视界）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

SmolVLA：Hugging Face 开源的轻量级 VLA 模型，体积小 10 倍，性能却达 SOTA！

一、项目概述

二、技术原理

（一）视觉–语言模型（VLM）

（二）动作专家

（三）异步推理

三、主要功能

（一）多模态输入处理

（二）动作序列生成

（三）高效推理与异步执行

四、应用场景

（一）物体抓取与放置

（二）家务劳动

（三）货物搬运

五、快速使用

（一）环境安装

（二）模型微调

（三）模型部署

六、结语

七、项目地址

发表评论取消回复

一、项目概述

二、技术原理

（一）视觉–语言模型（VLM）

（二）动作专家

（三）异步推理

三、主要功能

（一）多模态输入处理

（二）动作序列生成

（三）高效推理与异步执行

四、应用场景

（一）物体抓取与放置

（二）家务劳动

（三）货物搬运

五、快速使用

（一）环境安装

（二）模型微调

（三）模型部署

六、结语

七、项目地址

发表评论 取消回复

发表评论取消回复