在人工智能快速发展的当下，空间理解能力成为推动具身智能、虚拟现实等领域进步的关键因素。群核科技开源的SpatialLM空间理解多模态模型，为相关研究与应用带来了新的突破。今天，就让我们深入探究SpatialLM的奥秘。

一、项目概述

SpatialLM是群核科技开源的一款极具创新性的空间理解多模态模型，其目标是赋予机器人和智能系统类似人类的空间认知能力。它能对普通手机拍摄的视频进行深度分析，重建出细致入微的3D场景布局，精确标注房间结构、家具摆放、通道宽度等关键信息。

该模型基于大语言模型框架构建，巧妙融合点云重建和结构化表示技术，将视频中的场景转化为结构化的3D模型，为具身智能训练搭建起高效的基础框架，在多个领域有着广阔的应用前景。

二、核心功能

1.视频生成3D场景

SpatialLM具备强大的视频解析能力，它逐帧分析普通手机拍摄的视频，通过复杂的算法重建出场景的三维结构，精准还原房间布局、家具位置以及通道宽度等信息，让2D视频“变身”为生动的3D场景。

2.空间认知与推理

突破传统大语言模型在物理世界几何与空间关系理解上的局限，SpatialLM赋予机器类人般的空间认知和解析能力。它不仅能理解场景中物体的语义，还能生成结构化3D场景布局，标注物体的三维坐标、尺寸参数和类别信息，实现对空间的深度理解。

3.低成本数据采集

数据采集是许多研究和应用面临的难题，SpatialLM很好地解决了这一问题。它无需复杂的传感器或智能穿戴设备，普通手机或相机拍摄的视频就能作为数据输入，极大降低了开发者的数据采集门槛，让更多企业和研究者能够轻松开展相关研究。

4.具身智能训练

在具身智能领域，SpatialLM提供了基础的空间理解训练框架。企业可针对特定场景对模型进行微调，助力机器人在复杂环境中实现导航、避障和任务执行。结合群核科技的SpatialVerse空间智能训练平台，机器人能在仿真环境中学习技能，形成从认知到行动的完整闭环。

5.虚拟场景生成

SpatialLM能够将现实世界的数据转化为虚拟环境中的丰富场景。借助其合成数据引擎，可泛化生成亿万级新场景，为虚拟现实、增强现实和游戏开发等领域提供强大的数据支持。

三、技术原理

1. 视频输入与点云重建

利用MASt3R-SLAM技术处理输入的RGB视频，将视频拆解为帧后，提取物体的细节空间点，计算其深度和位置，生成高密度的3D点云模型，为后续处理奠定基础。

2. 点云编码与特征提取

通过编码器将点云数据转化为紧凑的特征向量，在这一过程中保留场景中物体的关键几何和语义信息，方便后续模型进行处理和理解。

3. 大语言模型生成场景代码

借助大语言模型（LLM）的强大能力，将点云特征转化为结构化的场景代码，这些代码包含空间结构的坐标和尺寸，并标注了物体的语义边界框，例如“沙发 – 长1.8米 – 距墙0.5米”。

4. 结构化3D布局生成

将场景代码进一步转换为结构化的3D场景布局，明确标注出每个物体的三维坐标、尺寸参数和类别信息，最终可被可视化工具还原为可交互的3D场景。

5. 物理规则嵌入

为确保生成的3D场景符合物理规则，SpatialLM内置了“家具不能悬空”“通道宽度≥0.8米”等物理常识，提升场景的真实性和实用性。

四、应用场景

1. 具身智能训练：助力机器人在虚拟环境中进行障碍规避、物体抓取等任务的训练，提升机器人在复杂环境中的适应能力和任务执行能力。

2. 自动导航：在机器人导航任务中，SpatialLM实时解析环境中的空间信息，帮助机器人避开障碍物并规划最优路径，实现高效自主导航。

3. AR/VR领域：能够快速将现实世界的场景转化为虚拟环境中的丰富场景，为增强现实和虚拟现实应用的开发提供有力支持，提升用户体验。

4. 建筑设计与规划：分析建筑物的3D点云数据，识别墙体、门窗等结构信息，帮助建筑设计和规划人员更高效地进行设计工作，提高设计效率和质量。

5. 教育与培训：教育工作者可利用SpatialLM开发教育软件，帮助学生学习3D建模和空间视觉能力。通过直观的3D场景生成和解析，让学生更好地理解空间关系和几何概念。

五、快速使用

1. 环境准备

在开始使用SpatialLM之前，需要确保你的环境满足以下要求：

– Python 3.11

– Pytorch 2.4.1

– CUDA Version 12.4

按照以下步骤设置环境：

# 克隆仓库git clone https://github.com/manycore-research/SpatialLM.gitcd SpatialLM# 创建一个包含CUDA 12.4的conda环境conda create -n spatiallm python=3.11conda activate spatiallmconda install -y nvidia/label/cuda-12.4.0::cuda-toolkit conda-forge::sparsehash# 使用poetry安装依赖pip install poetry && poetry config virtualenvs.create false --localpoetry installpoe install-torchsparse # 构建torchsparse的wheel文件需要一些时间

2.下载示例点云数据

可以从Hugging Face下载一个示例点云数据，该数据是从RGB视频使用[MASt3R-SLAM](https://github.com/rmurai0610/MASt3R-SLAM)重建得到的。

huggingface-cli download manycore-research/SpatialLM-Testset pcd/scene0000_00.ply --repo-type dataset --local-dir .

3. 运行推理

在当前版本的SpatialLM中，输入的点云被认为是轴对齐的，其中z轴是向上的轴。运行以下命令进行推理：

python inference.py --point_cloud pcd/scene0000_00.ply --output scene0000_00.txt --model_path manycore-research/SpatialLM-Llama-1B

此命令将处理指定的点云文件，并将推理结果保存到`scene0000_00.txt`文件中。

4. 可视化结果

使用`rerun`工具可视化点云和预测的结构化3D布局输出：

# 将预测的布局转换为Rerun格式python visualize.py --point_cloud pcd/scene0000_00.ply --layout scene0000_00.txt --save scene0000_00.rrd# 可视化点云和预测的布局rerun scene0000_00.rrd

通过以上步骤，你可以快速体验SpatialLM处理3D点云数据并生成结构化3D场景理解输出的能力。

六、总结

SpatialLM作为群核科技开源的空间理解多模态模型，凭借其强大的功能、创新的技术原理和广泛的应用场景，为人工智能在空间理解领域的发展注入了新的活力。无论是对具身智能感兴趣的研究者，还是从事虚拟现实、建筑设计等行业的从业者，都值得深入研究和应用SpatialLM，共同探索人工智能的无限可能。

项目地址：https://github.com/manycore-research/SpatialLM

（文：小兵的AI视界）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

家居机器人必备！SpatialLM开源模型教你4步生成家庭3D数字孪生

一、项目概述

二、核心功能

三、技术原理

四、应用场景

五、快速使用

1. 环境准备

4. 可视化结果

六、总结

发表评论取消回复

一、项目概述

二、核心功能

三、技术原理

四、应用场景

五、快速使用

1. 环境准备

4. 可视化结果

六、总结

发表评论 取消回复

发表评论取消回复