CityDreamer4D: 下一个世界模型，何必是视频生成模型？

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

在过去的两年里，城市场景生成技术迎来了飞速发展，一个全新的概念 ——世界模型（World Model）也随之崛起。当前的世界模型大多依赖 Video Diffusion Models（视频扩散模型）强大的生成能力，在城市场景合成方面取得了令人瞩目的突破。然而，这些方法始终面临一个关键挑战：如何在视频生成过程中保持多视角一致性？

而在 3D 生成模型的世界里，这一问题根本不是问题 —— 它天然支持多视角一致性。基于这一洞察，南洋理工大学 S-Lab 的研究者们提出了一种全新的框架：CityDreamer4D。它突破了现有视频生成的局限，不再简单地「合成画面」，而是直接建模城市场景背后的运行规律，从而创造出一个真正无边界的 4D 世界。

如果世界模型的终极目标是打造一个真实、可交互的虚拟城市，那么我们真的还需要依赖视频生成模型吗？不妨直接看看 CityDreamer4D 如何突破现有方案，构建出一个真正无边界、自由探索的 4D 城市世界——请欣赏它的生成效果！

想深入了解 CityDreamer4D 的技术细节？我们已经为你准备好了完整的论文、项目主页和代码仓库！

论文链接：https://arxiv.org/abs/2501.08983
项目链接：https://haozhexie.com/project/city-dreamer-4d/
GitHub链接：https://github.com/hzxie/CityDreamer4D

引言

过去两年，城市场景生成技术取得了突破性进展，生成质量达到了前所未有的高度。这一进步伴随着 “元宇宙” 和 “世界模型” 等概念的兴起，推动了对更真实、更连贯虚拟世界的探索。其中，“世界模型” 致力于在生成的场景中融入物理世界的运行规律，为更具沉浸感的虚拟环境奠定基础。当前主流的世界模型可大致分为四类：

基于视频生成的方法（如 StreetScapes [1] 和 DimensionX [2]）：依托 Video Diffusion Models（视频扩散模型），这些方法能够直接生成高质量的视频场景。然而，尽管扩散模型的能力惊人，帧间一致性仍然是一个长期未解的挑战，使得多视角的连贯性难以保证。
基于图像生成的方法 （如 WonderJourney [3] 和 WonderWorld [4]）：利用 Image Outpainting 和 Depth 估计，这些方法可以扩展场景，但受限于仅能生成小范围区域，缺乏全局一致性。例如，在面对一条河流时，转身 180 度可能会看到毫不相关的景象，影响场景的连贯性。
基于程序化生成的方法（如 SceneX [5] 和 CityX [6]）：通过结合大语言模型与程序化建模，这些方法能够生成结构化的城市场景。然而，场景的多样性受限于现有素材库，使得生成结果的丰富度有所局限。
基于 3D 建模的方法（如 CityDreamer [7] 和 GaussianCity [8]）：这些方法采用显式 3D 建模，直接从数据中学习 3D 表征，从而生成空间一致的城市场景。尽管它们已解决了多视角一致性问题，但仍未突破时间维度，无法生成 4D 场景，即缺乏动态演化能力。

而 CityDreamer4D 正是为了解决这一难题而生。它打破了视频扩散模型的固有瓶颈，不仅仅是 “合成” 城市影像，而是直接建模城市场景背后的运行规律，打造一个真正无边界、可自由探索的 4D 世界。我们的核心洞见如下：（1）4D 城市生成应当将动态物体（如车辆）与静态场景（如建筑和道路）解耦；（2）4D 场景中的所有物体应由不同类型的神经场组成，包括建筑、车辆和背景环境。

具体而言，我们提出了交通场景生成器（Traffic Scenario Generator）和 无边界布局生成器（Unbounded Layout Generator），分别用于生成动态交通场景和静态城市布局。它们基于高度紧凑的鸟瞰视角（BEV）表示进行建模，使得场景生成更加高效。在 4D 城市中，所有物体的生成依赖于背景环境、建筑物和车辆的神经场表示，其中结合了基于事物（Stuff-oriented）和基于实例（Instance-oriented）的神经场。为了适配背景环境与实例物体的不同特性，我们采用了自适应生成哈希网格（Generative Hash Grids）和 周期位置编码（Periodic Positional Embeddings）进行场景参数化，确保生成的城市既具备丰富的细节，又能保持时空一致性。

CityDreamer4D: 基于 4D 生成的城市建模框架

CityDreamer 通过无边界布局生成器（Unbounded Layout Generator）生成静态场景的城市布局，并利用城市背景生成器（City Background Generator和建筑实例生成器（Building Instance Generator）对城市中的背景环境和建筑进行建模。相比之下，CityDreamer4D在此基础上进一步引入交通场景生成器（Traffic Scenario Generator）和车辆实例生成器（Vehicle Instance Generator），专门用于建模 4D 场景中的动态物体，使生成的城市更加生动且符合物理规律。

城市布局生成

CityDreamer4D将无限扩展的城市布局生成问题转化为可扩展的语义地图和高度场建模，从而实现更灵活的城市生成。为此，它采用了基于 MaskGIT 的无边界布局生成器（Unbounded Layout Generator, ULG），这一方法天然支持Inpainting 和 Outpainting ，使得场景可在任意方向拓展。

具体而言，ULG 先通过 VQVAE 对语义图和高度场的图像切片进行编码，将其映射到离散潜在空间，并构建 Codebook 。在推理过程中，ULG 以自回归方式生成 Codebook 索引，并利用 VQVAE 解码器生成一对语义图和高度场。值得一提的是，高度场由俯视高度图和仰视高度图组成，这一设计使得 ULG 能够精准建模场景中的镂空结构（如桥梁等）。

由于 VQVAE 生成的语义图和高度场尺寸固定，ULG 通过图像 Outpainting 进行扩展，以支持任意规模的城市布局。在此过程中，它采用滑动窗口策略逐步预测局部 Codebook 索引，每次滑动时窗口之间保持25% 的重叠，确保生成区域的平滑衔接和连贯性。

交通场景生成

在 CityDreamer4D 中， 交通场景生成器（Traffic Scenario Generator）负责在静态城市布局上生成合理的动态交通流，以建模真实的城市动态。

交通场景被表示为

，其中

由语义图（Semantic Map）和高度场（Height Field）共同描述：语义图

标记动态物体的位置，高度场 定义它们的高度范围。这种表示方式确保了动态物体能在 3D 体素空间中准确渲染，并与静态场景保持一致。

为了使交通流合理且符合物理规律，我们引入高清交通地图（HD Map）作为约束。HD Map 在城市布局（City Layout）的基础上，额外提供车道中心线、交叉口、道路标志、交通信号灯等关键信息。具体而言，我们将 City Layout 转换为图结构（Graph Representation），通过边缘检测和向量化技术提取道路边界，并进一步解析车道中心线及其拓扑关系。结合 Bézier 曲线，我们推导车道的数量、宽度及其交叉口连接方式，以生成完整的 HD Map。

基于 HD Map，我们采用现有的交通模拟模型逐帧生成动态物体的边界框（Bounding Boxes），然后将其转换为语义图和高度场，确保车辆始终出现在合适的位置，并遵循合理的行驶路径。最终，所有动态物体的轨迹被合成为 4D 交通流 ，使得 CityDreamer4D 能够高效建模复杂的城市交通动态。

城市背景生成

城市背景生成器（City Background Generator, CBG）负责生成城市的背景元素，包括道路、绿化和水域。为了高效表示大规模三维场景，CBG 采用鸟瞰视角（BEV）作为场景的基本表征，该表征由语义图和高度图共同构成，使得背景结构清晰、层次分明。

鉴于城市背景通常具有类别相似、外观一致的特性，CBG 通过生成哈希网格（Generative Hash Grid）进行场景参数化，不仅增强了生成结果的自然性，还确保了 3D 结构的一致性。具体而言，CBG 采用哈希函数

，将场景特征

和空间点坐标 p 映射至可学习的多尺度参数空间，生成方式如下：

为了保证背景渲染的 3D 一致性，CBG 采用基于体积渲染的神经网络，将三维特征映射到二维图像。具体而言，对于相机光线上的任意采样点，系统首先查询生成式哈希网格以获取对应的特征表示，随后使用风格噪声调制的多层感知机（MLP）计算其颜色和体密度，并通过体渲染（Volumetric Rendering）积分得到最终像素的颜色值。

建筑实例生成

建筑实例生成器（Building Instance Generator, BIG） 专门用于生成城市中的建筑结构。与城市背景生成类似，BIG 采用鸟瞰视角（BEV）作为场景的基本表征，并利用基于体积渲染的神经网络将三维特征映射到二维图像，从而确保建筑在不同视角下的稳定呈现。考虑到建筑立面与屋顶在外观和分布上的显著差异，BIG 采用独立的类别标签对两者进行建模，使生成结果更加精准且符合现实规律。

针对建筑立面常见的周期性结构（如窗户、立柱的重复排列），我们设计了一种更加轻量化的参数化方法 ——基于周期性函数的场景参数化。具体而言，BIG 通过周期性函数将建筑特征

和空间坐标 p 映射到一个高维空间，以增强建筑立面的结构一致性：

其中，Concat 代表连接（Concatenation）操作，

被定义为

这一策略不仅优化了建筑立面的建模效率，还确保了生成结果在大尺度城市环境中的结构合理性，使得建筑在不同高度、角度下都能保持稳定的视觉表现。

车辆实例生成

车辆实例生成器（Vehicle Instance Generator, VIG）负责生成交通场景中的车辆，并确保其外观与运动符合物理规律。与建筑实例生成类似，VIG 采用鸟瞰视角进行场景表示，并在交通场景中提取局部窗口

进行实例建模。该窗口包含语义图

和高度场

，用于描述车辆的位置与三维形态，同时移除其他动态物体，以确保生成过程专注于单个实例。

由于车辆在结构上具有更强的规则性，VIG 采用标准化特征空间（Canonical Feature Space）进行场景参数化。具体而言，车辆的局部坐标系由其中心位置

和 旋转矩阵R 共同定义，使得相同类型的车辆能够共享结构特征。对于给定的空间点 p ，其标准化表示为：

这一参数化方式能够捕捉车辆前后、侧面的结构差异，同时提升不同车辆实例间的特征一致性。

在渲染过程中，VIG 采用体渲染进行 3D 生成，并使用风格编码（Style Code）控制车辆外观的变化，以增强生成结果的多样性和真实感。最终，VIG 通过全局编码器提取车辆实例的局部特征，并利用标准化特征空间进行 4D 场景建模，使得 CityDreamer4D 能够高效生成时空一致的动态交通环境。

图像融合

给定城市背景的图像和掩膜（分别用

和

表示）、建筑实例的图像和掩膜的集合（分别用

和

表示）以及车辆实例的图像和掩膜的集合（分别用

和

，CityDreamer4D 使用如下方式得到第 t 时刻融合后的图像

其中

和

分别表示建筑和车辆实例的数量。

CityTopia：高精度 3D 城市数据集

CityDreamer [7] 中所提出的 GoogleEarth 数据集尽管提供了密集的 3D 语义和实例标注，但仍存在诸多局限：缺乏街景视角、标注精度受限、以及高架道路等复杂结构未被完整标注。为解决这些问题，我们构建了 CityTopia—— 一个拥有高保真渲染、多视角覆盖、精准 3D 标注的数据集，专为城市生成与交通建模而设计。

虚拟城市构建：CityTopia 的城市场景基于 Houdini 和 Unreal Engine 构建，我们精心设计了 11 座虚拟城市，并利用 CitySample 项目的约 5000 个高质量 3D 资产生成完整的城市结构。城市的每个元素都存储了 6D 位姿信息，并通过表面采样（Surface Sampling）自动赋予语义与实例标签。这些城市在 Unreal Engine 中实例化后，可在不同光照条件下渲染出高质量的图像，为城市建模提供了更加灵活的实验环境。

数据采集：CityTopia 采用预设的相机轨迹进行数据采集，每座城市包含 3000-7500 张图像，涵盖白天与夜晚两种光照条件。相比 GoogleEarth，CityTopia 提供了更多的街景视角，并在低仰角航拍数据上有更广的覆盖。为保证图像质量，我们在渲染过程中采用 8× 空间超采样与 32× 时间超采样，有效减少渲染伪影，使得数据更加稳定。

2D + 3D 标注：CityTopia 的 3D 标注来自虚拟城市生成过程，所有 3D 物体的语义和实例信息均在数据构建时直接获得，无需额外的手工标注调整。2D 标注则通过相机投影从 3D 标注自动生成，并与街景图像、航拍图像完美对齐。在车辆场景中，CityTopia 的实例标注与 3D 结构高度一致，使其在车辆生成、交通建模等任务上具备较高的参考价值。此外，由于数据生成流程完全可控，只需增加新的 3D 资产，即可进一步扩展数据集规模。

实验

与其他世界模型方案的对比：下方视频对比了 CityDreamer4D 与 DimensionX [2]（视频生成）、WonderJourney [3]（图像生成）和 CityX [6]（程序化生成）。结果表明，CityDreamer4D 在多视角一致性上明显优于 DimensionX 和 WonderJourney，在场景多样性上显著优于 CityX。

与原生 3D 场景生成方法的对比：下方视频展示了 CityDreamer4D 与现有原生 3D 场景生成方法（包括 InfiniCity [9]、PersistentNature [10] 和 SceneDreamer [11]）的对比。结果表明，CityDreamer4D 在生成质量上实现了显著提升。

城市风格化：CityDreamer4D 能够轻松扩展城市风格。通过引入 ControlNet 的先验，我们可以将 Minecraft、Cyberpunk 等不同风格无缝应用于整个城市，只需在 ControlNet 生成的图像上微调预训练模型，即可获得风格一致的 3D 城市场景。虽然 ControlNet 生成的图像缺乏 3D 一致性，但 CityDreamer4D 依托其高效的场景表示与参数化，能够确保风格化后的城市在不同视角下保持一致。

总结

我们提出了 CityDreamer4D ，一个基于 3D 表征的 4D 城市生成框架，突破了现有 Video Diffusion 方法的多视角不一致问题 。相比传统视频生成，CityDreamer4D 直接在 3D 空间建模城市的动态变化，从而生成 空间和时间维度一致的 4D 场景。此外，我们构建了 CityTopia ，一个高精度 3D 城市数据集，涵盖多视角、多光照条件，并提供精确的 2D-3D 对齐标注。CityDreamer4D 提供了一种原生 3D 的世界模型，为 4D 城市生成提供了全新的解决方案。

参考文献：

[1] Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion. SIGGRAPH 2024.

[2] DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion. arXiv 2411.04928.

[3] WonderJourney: Going from Anywhere to Everywhere. CVPR 2024.

[4] WonderWorld: Interactive 3D Scene Generation from a Single Image. arXiv 2406.09394.

[5] SceneX: SceneX: Procedural Controllable Large-scale Scene Generation. arXiv 2403.15698.

[6] CityX: Controllable Procedural Content Generation for Unbounded 3D Cities. arXiv 2407.17572.

[7] CityDreamer: Compositional Generative Model of Unbounded 3D Cities. CVPR 2024.

[8] GaussianCity: Generative Gaussian Splatting for Unbounded 3D City Generation. arXiv 2406.06526.

[9] InfiniCity: Infinite-Scale City Synthesis. ICCV 2023.

[10] Persistent Nature: A Generative Model of Unbounded 3D Worlds. CVPR 2023.

[11] SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections. TPAMI 2023.

（文：机器之心）

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复