浅谈空间智能与空间生成

  • 空间智能起源和发展现状

早在1983年,美国心理学家霍华德·加德纳在《智能的结构》一书中就提出了空间智能(Spatial Intelligence)这个概念,指准确感知视觉世界、对感知到的内容进行改造或修改,并能够在没有物理刺激的情况下重新创造视觉经验的能力。2018年,帝国理工学院的Andrew J. Davison教授进一步提出了“空间人工智能”(Spatial AI)的概念。他认为空间AI是视觉SLAM(同步定位与地图构建)技术的延伸,未来将成为智能机器人和移动设备的基础技术。

2024年TED大会上,被誉为“AI教母”、斯坦福大学李飞飞教授,首次明确提出“空间智能”作为AI发展的下一个重要里程碑。她认为,空间智能不仅仅是让AI“看见”世界,还要让AI理解三维空间并与之互动,从而实现从视觉识别到真正理解现实世界的跨越。由李飞飞创办的以空间智能技术为核心的World Labs,在同年11月发布了首个空间智能模型,只需一张图即可生成一个3D场景,而且具备可交互性和可编辑性,用户可以在3D场景中自由漫游,并实现景深控制、滑动变焦和重打光等多种3D效果。几乎同一时间,DeepMind也发布了可以实现类似效果的技术Genie 2,基于单张图可生成最长1分钟的场景画面,而且具备实时交互、物理模拟、空间记忆和多样化的环境生成等特点。这些技术的突破,标志着人工智能开始迈向3D时代。

我们经历过从1D文本大模型到2D图像/视频大模型的变革,这些经验告诉我们,高维空间的理解和生成,是很难通过低维模型实现的。正如文本难以完备表达图像/视频的丰富内容,一个3D空间也需要用大量冗余的图像才能完整覆盖。现在AI生成的视频,移出画面的内容再次移进画面后就难以保证一致性,本质上正是由于2D模型并没有真正理解3D世界中的多视图几何规则。虽然Scaling Law可以一定程度缓解这样的问题,但需要付出巨大的代价。目前也有一些方法通过蒸馏2D生成模型实现3D生成,但也只能生成单个物体,难以生成整个3D空间,距离空间智能更是相去甚远。必须将3D世界已知的几何和物理规则全面注入到模型的设计和训练,才能让模型真正具备空间智能。传统的三维视觉技术,正是利用几何和物理规则实现3D空间上的三维注册、重建和理解,也就是空间计算。空间智能是在传统空间计算基础上的进一步发展,可以说是在空间计算加持下的下一代人工智能大模型,通过让模型学会3D世界的几何和物理规则,具备对3D空间的理解、生成和推理能力,全面提升3D空间中的人、机、物、场之间交互融合的自然性和高效性

  • 空间生成框架构想

实现空间智能,需要深刻理解空间的内在结构与特性,并能够对三维空间进行重建或生成。因此,空间生成是空间智能的关键组成部分。空间智能公司World Labs将场景生成作为首个对外发布的模型,也体现了空间生成在空间智能研究中的重要性。

与文本生成和视频生成类似,空间生成要解决的首要问题是如何获取高质量且具备多样性的数据。然而,与文本和视频数据不同,高质量3D数据获取的挑战性要大很多,主要原因包括以下几个方面:1)3D数据的采集和构建过程通常需要依赖高精度的传感器设备(如激光雷达、深度相机等)以及复杂的重建算法,这导致数据获取成本显著高于文本和图像/视频数据2)3D数据的标注和整理需要专业领域的知识支持,例如对场景中物体的几何结构、材质属性以及空间关系的精确描述,这一过程不仅耗时耗力,还容易引入人为误差3)3D数据的多样性和覆盖率要求更高,因为现实世界中的场景具有极高的复杂性,涵盖不同的光照条件、空间布局和动态变化。针对高质量3D数据匮乏这一挑战,我们浙江大学和商汤科技的联合研究团队提出了一空间生成大模型框架以及实现路径。框架基于2D数据与强化学习的协同机制,构建了一个自优化的3D数据生成新范式。实现路径分为以下三个阶段。

1. 空间生成框架构想和实现路径


一开始由于高质量的3D数据匮乏,训练得到的空间生成大模型的能力还比较有限,难以根据输入的图像直接输出一个高质量而且完整的3D场景,更多具备的是三维重建的能力,得到的是一些不完整的3D结构化表达(比如深度、三维点云等)。因此,在第一阶段,我们的空间生成大模型本质上是一个3D重建大模型,可以从海量影像数据中提取场景的三维结构化表征,并通过渲染技术生成多视角一致的高质量影像数据。这些高质量数据用于训练和优化2D生成模型,使其具备生成多视角一致的高质量数据的能力。目前已有的绝大部分2D图像/视频由于相机运动范围、视角的局限性和动态元素的干扰,对于基于多视几何的三维重建来说是不友好的,很难直接重建出高质量的3D场景。但是经过我们第一阶段的模型生成出的2D图像/视频,可以从各个视角完整覆盖一个场景,而且具有高度的时空一致性,从而使用传统的三维重建三维高斯溅射技术就能生成出高质量的3D场景。

第二阶段的核心在于利用第一阶段优化后的2D生成模型,生成大规模高质量数据,并通过三维重建技术将其转换为3D场景数据。这些3D场景数据作为训练样本,通过强化学习机制持续优化3D空间生成大模型的性能。该阶段的关键挑战在于设计可靠的奖励模型,以评估生成数据的质量和多样性,确保模型优化的方向性和有效性。

随着迭代优化的深入,空间生成大模型的性能显著提升,其生成能力开始全面超越2D生成模型2D生成模型的作用逐渐弱化直至不需要,此时空间生成大模型进入第三阶段,能够直接从2D图像输入生成完整、连贯且具有空间合理性和视觉真实性的3D场景。这一转变不仅显著提高了数据生成效率,还确保了生成结果的空间一致性。

  • 空间生成的一些最新研究进展

一些最新研究工作(例如,ReconX和ViewCrafter)也开始结合3D信息来帮助生成时空一致的视频例如,为了确保生成视频各段间的时空一致性,ViewCrafter等方法使用点云作为全局表示,将先前重建的点云投影到当前片段作为条件。生成当前段视频后,生成的图像会用于更新和扩展全局点云,从而实现永续视图生成。然而,点云重建过程中的固有误差会逐渐累积,限制了其扩展性。

基于前面提出的空间生成大模型的框架,我们团队在第一个阶段的StarGen目(项目主页:https://zju3dv.github.io/StarGen/论文地址:https://arxiv.org/abs/2501.05763),将3D重建模型和视频生成模型有机结合起来,实现了视频生成质量和运动控制精度的突破,并结合三维重建3D高斯溅射技术可以生成高质量的三维场景。

StarGen采用滑动窗口机制逐步生成长距离场景,通过时空约束确保生成效果的一致性:在时间维度上,选取前一窗口的关键帧作为时间条件输入,维持视频序列的时间连贯性;在空间维度上,从历史窗口中选择与当前窗口共视区域最大的图像集合作为空间条件,确保多视角间的空间几何一致性。

2. StarGen框架

StarGen通过大型重建模型Large Reconstruction Model)和视频扩散模型有机结合起来并基于空间条件处理(提取3D几何信息并渲染目标视角特征图)与时间条件处理(通过VAE编码融合时空特征),利用ControlNet控制生成高质量、时空一致的长距离视频序列,有效克服了点云重建误差累积问题。

3. 图生长视频任务下,StarGenSOTA方案的定性对比

从定量指标上来看,StarGen的误差累积速度明显小于现有SOTA方法。

4. 图生长视频任务下,StarGenSOTA方案的定量指标对比

基于StarGen生成的视频,可以再通过三维重建3D高斯溅射技生成可供用户自由漫游的3D场景

  • 总结与展望

随着人工智能技术和基础算力服务的不断进步,空间智能的研究即将迎来新的爆发点,并释放巨大的创造力与生产力。通过将传统的基于2D图像的研究范式提升到3D空间,空间智能将为以3D空间为载体的一系列应用领域(如游戏、影视、AR/VR、具身智能等)带来颠覆性的变革。基于三维重建与生成结合的思想,本文重点探讨了空间智能中的关键模块空间生成模型的框架构想和实现路径,并介绍了我们在框架中的第一个阶段所做的工作StarGen。实验结果表明,StarGen可以显著提升视频生成质量和运动控制精度,尤其是随着视频帧数的增加,相比现有的SOTA方法优势更加明显。我们希望该框架和实现路径不但能推动空间生成技术的发展,而且能够为空间智能的其他模块的发展带来一些启发。(作者:章国锋,浙大计算机学院教授)

(文:智东西)

欢迎分享

发表评论