CVPR 2025满分论文：开源三维生成框架Craftsman3D&Dora革新三维资产生成与编辑

机器之心发布

机器之心编辑部

香港科技大学谭平教授团队在 CVPR 2025 发表两项三维生成技术框架，核心代码全部开源，助力三维生成技术的开放与进步。其中 Craftman3D 获得三个评委一致满分，并被全球多家知名企业如全球最大的多人在线游戏创作平台 Roblox, 腾讯混元 Hunyuan3D-2，XR 实验室的 XR-3DGen 和海外初创公司 CSM 的 3D 创作平台等重量级项目的引用与认可。

相关技术已融入光影焕像的三维生成平台及产品，用户只需简单操作，就能开启专属三维创作之旅。

光影焕像 3D 生成平台（主站）：https://triverse.ai/zh-cn/
光影焕像 3D 生成平台（国内备用）：https://triverse.lightillusions.com/zh-cn/

本文中 Craftman3D 的共同一作李威宇、刘嘉瑞和阎鸿禹均为香港科技大学博士研究生。Dora 的第一作者为香港科技大学博士陈锐。均为香港科技大学谭平教授组的在读博士生。

三维内容的创建对于游戏、影视、AR/VR 乃至具身智能的环境仿真中具备关键作用。不过，传统三维建模方式要求建模者掌握大量专业知识，且需投入大量人工操作，这使得建模过程极为耗时，极具挑战性，对于非专业用户而言更是如此。过高的时间与人力成本，已然成为限制这些领域发展的主要瓶颈。近年来，基于 AI 的三维内容生成技术逐步改变了这一局面。借助自动化生成技术，三维内容创建的门槛大幅降低，让更广泛的用户群体能够高效地构建三维数字内容。

当前原生三维生成模型主要由两部分构成：一是 3D-VAE（3D Variational Auto Encoder）变分自编码器，它通过 Encoder 网络将三维模型压缩编码至潜在空间（latent space），并通过 Decoder 网络解码重构出三维模型；二是基于 3D-VAE 构建的潜在扩散模型（latent diffusion model）用于处理文本或图像输入的三维模型生成。三维生成大模型所呈现的细节上限，在很大程度上取决于 3D-VAE 对三维几何的编码与重建能力。为提升三维模型编解码过程中的几何细节丰富度，香港科技大学谭平团队联合字节跳动豆包大模型团队与光影焕像团队，共同提出了 Dora 模型来改进三维原生 VAE。

在 3D-VAE 模型的基础上，香港科技大学与光影焕像团队进一步提出了 Craftsman3D 算法方案，该方案借鉴了传统建模流程，能够快速生成高质量的 3D 模型，以进一步生成满足设计师对高质量三维模型的生成要求。此方法在 CVPR 中获得审稿人一致满分评价，它融合了原生 3D 大模型以及实时几何细节优化两大部分：首先由原生三维大模型生成初始模型，随后通过实时可交互几何细化操作，短短几十秒内即可生成具备高质量几何细节的三维模型。

Dora 开源代码：https://github.com/Seed3D/Dora/
Dora 项目主页：https://aruichen.github.io/Dora/

本文提出的 Dora-VAE，创新性地将显著边缘采样算法与双交叉注意力机制相结合，极大地提升了三维变分自编码器（3D-VAE）的重建质量与压缩性能。在训练阶段，该方法能够精准识别出具有较高几何复杂性的区域，并对其优先处理，从而有效改善了对精细几何特征的保留情况，让变分自编码器能够着重关注那些传统均匀采样方式容易忽视的关键几何细节。在实现高质量重建的同时，相较于当前 SOTA 方法（Xcube），Dora-VAE 在 3D 形状压缩率方面实现了超过 8 倍的提升。

当前，三维变分自编码器的运行机制是：通过在三维网格表面进行点采样来完成形状编码，而后利用解码器对原始三维网格进行重建。经过深入且细致的研究，研究人员察觉现有方法普遍采用均匀采样（uniform sampling）策略，从而导致重建性能受限。为了验证这一发现，研究人员选取了具有复杂几何细节的键盘（如下图 (a) 所示）作为实验对象，对其进行点云采样，并将不同采样策略在多种采样密度下的点云分布情况进行了可视化呈现（如下图 (b)(c) 所示）。实验结果清晰地显示：即便提升了采样率，采用均匀采样方式（如下图 (b) 所示）依旧无法有效地保留键盘按键等锐利特征（sharp feature）。这一简洁直观的实验有力地证实了，均匀采样在本质上对几何细节的捕捉能力形成了制约，而这种制约进一步对变分自编码器的重建精度以及所训练扩散模型的生成质量产生了不良影响。

受重要性采样理念的启发，研究人员设计了显著边缘采样（Sharp Edge Sampling, SES）算法，该算法能够基于几何显著性实现自适应点采样。具体而言，SES 算法首先识别网格中具有显著二面角的边缘（这些边缘所在区域往往对应高几何复杂度区域），并沿显著区域进行点采样。与此同时，为了保证三维模型表面的覆盖完整性，研究人员依旧会进行表面均匀点采样。因此，最终生成的采样点云

由表面均匀采样点

与显著区域采样点

联合构成：

。

显著边缘检测（Salient Edges Detection）

给定一个三维网格，研究人员通过计算相邻面间的二面角获得显著边缘集合

。对于每条由相邻面

和

共享的边

，研究人员通过下式计算其二面角

：

其中

和

分别表示面

和

的法向量。显著边缘集合

包含所有二面角超过预设阈值

的边：

，令

表示显著边缘的数量。

显著点采样（Salient Points Sampling）

针对每条显著边缘

，研究人员将其两个顶点

和

纳入显著顶点集合

，相连边缘产生的重复顶点仅保留一份：

。令

表示该集合中唯一几何顶点的数量。给定显著区域目标点数

，当显著顶点过多时，通过最远点采样法 (Farthest Point Sampling, FPS) 进行顶点下采样；当显著顶点不足，通过对显著边缘增加采样来补充数据，从而得到显著区域采样点

。

基于 SES 算法，研究人员提出 Dora-VAE，在保持紧凑潜在表征的同时实现了高保真度的三维重建。为充分利用 SES 采样获得的富含细节的点云数据，研究人员设计了双交叉注意力编码架构，该架构在特征编码过程中能有效融合显著区域与均匀区域的特征表达。具体而言，研究人员沿用 3DShape2VecSet 的做法，首先分别对均匀采样点云

和显著区域采样点云

进行最远点下采样：

其中

与

分别表示来自均匀采样点云

和显著区域采样点云

的下采样点云数量。研究人员随后分别计算均匀点与显著点的交叉注意力特征:

最终点云特征 C 通过融合双向注意力计算结果获得：

遵循 3DShape2VecSet，研究人员利用特征 C 通过自注意力模块预测占据区域

，整个模型

通过最小化均方误差损失进行优化：

研究人员通过三个指标评估重建质量：使用 1M 采样点对比输入网格与不同 3D VAEs 解码结果的差异，包括：1) F-score；2) 倒角距离 (CD)；3) 尖锐法线误差 (SNE)。为公平比较，研究人员同时给出潜在编码长度 (LCL)。结果表明，Dora-VAE 在 Dora-bench 中所有的指标都达到了最佳。

Craftman3d开源代码：https://github.com/wyysf-98/CraftsMan3D/
Craftman3d项目主页：https://craftsman3d.github.io/

在训练 3D-VAE 的基础上，CraftsMan3D 通过汲取传统建模流程的经验，精心设计了两阶段的技术方案：第一阶段使用原生三维大模型进行初始模型生成。算法先使用 multi-view image diffusion 进行多视图生成，然后将多视图输入到 3D-DiT 扩散模型中来生成拓扑规则的几何和纹理。第二阶段为几何细化阶段，团队使用法向图超分的方案实现高质量法向估计，然后通过可微渲染实现法线图引导的几何细节优化。

阶段一：基于 DiT 的原生三维大模型

团队提出了将三维扩散模型与多视图扩散模型相结合的原生三维生成方案。具体来说，算法使用 3D-VAE 将几何压缩到潜在空间，然后使用 3D-DiT 扩散模型在潜在空间进行生成。对于单个参考图像或文本提示输入，首先将其输入到多视图扩散模型中以获得多视图图像作为三维扩散模型的输入，然后使用三维扩散模型从中学习生成三维几何图形。

团队设计了完善的数据筛选 – 几何水密化 – 渲染等数据处理流程，形成了强大的数据处理平台以支撑原生三维大模型的训练数据。

阶段二：高质量几何细节优化

受限于 3D 大模型常用的隐式表达方案和 VAE 的压缩特性，原生三维生成的物体往往难以具备很高频的几何细节。因此，论文提出了第二阶段交互式几何细节优化，通过法相贴图生成和反向 “烘焙” 优化的方式捕捉高频的几何细节，从而产生高质量的三维资产。

具体来说，该部分通过基于表面法线贴图的扩散模型来实现法线图细节增强，并通过显式三角网格优化增加三维几何细节。团队在原版 stable diffusion 的基础上使用法线数据集微调，并借助 tile 插件实现法相贴图的超分辨率生成。通过这种方式模型既拥有几何细节生成能力，还保留了原有的泛化能力。进一步基于法线贴图优化直接优化三维网格顶点，只需 10 秒，即可在用户绘制的区域添加几何细节，并完全保持其他区域的几何形状。

该技术还支持趣味扩展功能：以人物照片为输入，可生成与输入图像面部特征匹配的 3D 模型，实现 3D 资产快速换脸。

使用Craftman3D三维生成技术方案，普通用户无需复杂操作即可快速搭建出精美的三维模型和场景。无论是游戏开发、影视制作还是建筑室内设计、具身感知虚拟场景，各类创意都能轻松实现。如下图所示，场景中的所有物体均由 Craftman3D 自动生成。

（文：机器之心）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复