家居机器人必备!SpatialLM开源模型教你4步生成家庭3D数字孪生
SpatialLM是群核科技开源的一款空间理解多模态模型,能够从普通手机拍摄的视频中重建精细3D场景,并标注房间结构、家具摆放和通道宽度等信息。其核心功能包括生成3D场景、提升机器人的空间认知能力、降低数据采集成本以及在虚拟现实中提供丰富场景支持。
SpatialLM是群核科技开源的一款空间理解多模态模型,能够从普通手机拍摄的视频中重建精细3D场景,并标注房间结构、家具摆放和通道宽度等信息。其核心功能包括生成3D场景、提升机器人的空间认知能力、降低数据采集成本以及在虚拟现实中提供丰富场景支持。
MoshiVis利用7B参数的Moshi模型新增适配器参数支持讨论图像,兼容PyTorch、Rust和MLX三种后端,具备实时视觉对话能力。
新性成果,它能将
2D
图像高效转化为具备深度与透视效果的
3D
视频。
这一技术不仅为内容创作者们
离职加入OpenAI前CTO初创Thinking Machines。这位技术奇才,曾被OpenAI、