CVPR 2025高分论文!单图1秒变3D真人,全新方法IDOL解决数字人重建问题

©作者 | 庄义昱

单位 | 南京大学博士生

研究方向 | 三维生成与重建

▲ 图1 IDOL 速览


在虚拟现实、游戏和 3D 内容创作领域,从单张图像高保真重建可动画的 3D 人体一直是一项极具挑战性的任务。人体的多样性、姿势的复杂性,以及高质量数据的稀缺性,令这一问题长期未能得到理想的解决。


然而,近期由南京大学、中科院、清华大学、腾讯等机构组成的联合研究团队提出了一项突破性技术——IDOL(Instant Photorealistic 3D Human Creation from a Single Image),一举斩获 CVPR 2025 高分论文!


项目主页目前访问次数已超 2000 次,且是可商用的 MIT 开源协议,备受业界瞩目。


IDOL 为单图 3D 人体重建问题提供了一种全新的高效解决方案:IDOL 以秒级速度在单张 GPU 上生成高分辨率、逼真的 3D 人体,同时支持实时渲染、直接动画化与编辑,为 VR/AR、虚拟数字人以及 3D 内容创作带来了超越性变革。



论文标题:

IDOL: Instant Photorealistic 3D Human Creation from a Single Image

论文地址:

https://arxiv.org/pdf/2412.14963

项目主页:

https://yiyuzhuang.github.io/IDOL

代码开源(MIT协议,可商用):

https://github.com/yiyuzhuang/IDOL

▲ IDOL demo video



研究背景

3D 人体重建技术在虚拟现实、数字娱乐、游戏开发以及虚拟试衣等领域中备受关注。


单图生成 3D 人体一直被视为一个极具挑战性的研究课题,因为单张图像的信息本身十分有限,不仅难以还原人体的精确几何形状,更难以捕捉到真实的纹理细节。


传统方法存在许多问题:


  • 优化时间长基于扩散模型等先验的优化方法,通常需要数分钟甚至数小时才能完成重建过程。

  • 依赖准确的 SMPL 参数估计采用参数化人体模型作为拓扑先验的方法,需要额外的时间来估计准确的 SMPL-X 参数,且其迭代优化过程高度依赖于 SMPL-X 参数的准确性。

  • 泛化性不足现有方法在处理大姿态、大侧面视角以及宽松衣物等挑战性样本时,表现出泛化能力不足的问题。

  • 缺乏真实感重建结果常常出现卡通化或过饱和的现象,且对不可见区域的补充往往不够自然。

  • 动画化困难许多重建方法未充分考虑后续的驱动需求,需要进行额外的骨骼绑定(rigging)处理。此外,由于表达方式的限制,这些方法往往难以泛化到新的姿态。

  • 编辑能力受限现有方法生成的 3D 模型往往难以直接进行外观修改,需要额外的 UV 展开等操作。



研究方法

如何突破现有瓶颈?


作者提出了 IDOL 这一技术路线,通过采用高效、可扩展的重建框架,训练一个简单的前馈模型,实现秒级、高质量的可驱动 3D 人体生成!


文章重构了传统人体重建管线,从数据驱动的角度出发,利用 2D 视频模型的先验构建了 HuGe100K 数据集;基于此,训练了简洁高效的重建网络 IDOL。细节如下:

2.1 大规模数据集 HuGe100K

作者通过微调构建了一个能够生成高视点一致性的多视点图像生成网络(MVChamp),并构建了 HuGe100K 数据集——一个以人为中心的大规模生成数据集。


(1)数据集构建流程


文本提示与图像生成:利用先进的文本到图像生成模型(如 Flux),设计描述性提示语,确保在“区域、服饰、体型、年龄、性别”等维度上实现均衡采样,从而生成 10 万张高质量全身人体图像(经过人工筛选,保留 90K 张合成图像,并融合 10K 张真实图像)。


多视角图像生成:基于生成的全身图像,通过训练多视角视频生成模型(MVChamp),再结合 SMPL-X 人体模板进行姿态拟合,获得 24 个均匀分布的视角图像,确保数据在 3D 一致性上的准确性。


(2)数据优势


该数据集包含超过 240 万张高分辨率(896×640)的人体多视图图像,共计 100K 个(10万组)样本。每组图像通过一个可控姿势的图像到多视角生成模型生成,共包含 24 个视角帧。


数据集涵盖了多样化的个体特征(包括不同年龄、性别、体型、服饰和场景)为模型训练提供了充足的样本,从而显著提升了模型在各种复杂条件下的重建能力。

▲ 图2 构建 HuGe100K 数据集的路线图

2.2 前馈式 Transformer 重建模型 IDOL

基于此数据集,作者训练了一个预训练的编码器和一个基于 Transformer 的骨干网络,能够在 1 秒内实现快速重建


该模型能够直接从单张输入图像中预测出人体在统一空间下的 3D 高斯表示。通过将人体姿势、体型、服装几何结构与纹理进行解耦,模型不仅能生成高保真 3D 人体,还能实现无需后处理的直接动画化,为后续的形状与纹理编辑提供了便利。

▲ 图3 IDOL 的技术路线图

2.3 模型架构

(1)高分辨率编码器(Encoder):采用预训练的人体基础模型 Sapiens,对高分辨率图像进行特征提取,保留图像中的细粒度信息。


(2)UV 对齐 Transformer(UV-Alignment Transformer):通过学习的 UV Token 与图像特征进行融合,将不规则的输入图像映射到规则的 2D UV 空间中,此空间由 SMPL-X 模型定义,能够提供丰富的几何和语义先验。


(3)UV 解码器(UV Decoder):将融合后的特征重构成 3D 高斯属性图(包括位置偏移、旋转、尺度、颜色及不透明度),从而得到用于重建人体的高斯表示。


(4)动画与渲染:利用线性混合蒙皮(LBS)技术,根据预定义的关节运动,对高斯表示进行前向变换,实现人体在不同姿态下的动画化。

2.4 训练目标与损失函数

模型采用多视角图像监督,利用均方误差(MSE)和基于 VGG 网络的感知损失共同优化。这样的组合既保证了重建图像在像素级别的准确性,又能提高整体的感知质量,使生成的人体纹理更为自然、细腻。

2.5 方法优点:高效与实时性

IDOL 模型经过优化后,在单个 GPU 上仅需不到 1 秒即可重建 1K 分辨率的逼真 3D 人体,极大地提升了实用性和应用场景的广泛性。可以归纳为以下几点:


  • 1 秒内完成高质量 3D 角色重建

  • 统一的 UV 表达与大规模数据集支撑,泛化性强

  • 可驱动性,无需额外绑骨

  • 支持形变与纹理编辑

  • 基于 3DGS 的表达,支持实时渲染


实验结果

3.1 IDOL 与其他方法的对比

IDOL 相较传统 3D 建模方法实现多重突破:


自研 10 万级多视角数据集 HuGe100K(传统方法仅依赖少量扫描数据),显著提升模型泛化能力;


创新性融合 SMPL-X 人体拓扑与 UV 展开的高斯溅射属性(替代传统体素/隐式场),实现解剖学精准建模;


1 秒级实时重建(传统需数小时)且支持线性蒙皮自动驱动动画(无需手动 RIGGING),更具备形变、换装等灵活编辑特性。

▲ 表1 IDOL 与传统方法对比一览

3.2 HuGe100K 与其他数据集的对比

通过对模型中各关键组件(如 Sapiens 编码器、HuGe100K 数据集)的逐一剔除测试,验证了各模块对整体性能的重要贡献,证明了数据集规模与高分辨率特征提取对高质量重建不可或缺。


HuGe100K 优点如下:


  • 个体多样性飞跃与现有数据集相比,HuGe100K 以 100K 个体数量(远超同类最高 4500 个 ID)和超 2.4M 帧数的规模,成为目前全球最大、多样性最丰富的 3D 人体数据集,极大缓解模型过拟合问题。

  • 标准化兼容性全数据集成 SMPL-X 参数化人体模型,无缝对接主流 3D 工具链。

  • 该数据集为单图 3D 重建、数字人驱动等任务提供了工业化级训练基础,填补了高多样性、大规模多视角人体数据的市场空白。

▲ 表2 HuGe 100K 数据集与其他数据集对比

3.3 重建质量对比

IDOL 在与现有方法(如基于迭代优化的 GTA、SIFU 等)对比中,在 MSE、PSNR 和 LPIPS 等指标上均取得显著优势,证明了其在重建精度和细节保留上的优越性。

▲ 表3 对比实验及消融实验指标


实验验证了 IDOL 在不同场景和姿态下均能生成细节丰富、纹理一致的 3D 人体。


无论是复杂服饰、特殊角度拍摄,还是不同体型的人体重建,IDOL 均表现出极好的泛化能力和鲁棒性。

▲ 图4 IDOL 与其他方法效果对比



IDOL 的应用

IDOL 方法不仅在技术上取得了显著突破,其应用前景也十分广阔。其开源协议 MIT 自由可商用,欢迎大家随意搭建到自己的应用中。


利用 IDOL 生成的 3D 人体,用户可以直接进行形状和纹理编辑,例如调整服装图案或改变体型参数。同时,结合动画技术,该模型还可以实现视频中的身份替换等应用,展现出极高的实用价值。


1. 虚拟现实与增强现实


即时生成真实感 3D 人体模型为 VR/AR 应用提供了新的交互方式,可以实现实时虚拟形象替换、数字孪生等创新应用场景。


2. 数字娱乐与游戏开发


通过单图重建,游戏开发者可以快速生成高质量角色模型,大幅降低建模成本,加速内容创作流程,从而推动数字娱乐产业的发展。


3. 虚拟试衣与时尚产业


在电商和虚拟试衣领域,利用 IDOL 技术可以实现用户上传单张照片后即刻生成 3D 人体模型,为消费者提供个性化试衣、定制服务,提升用户体验。



结论

这篇论文通过创新性的单图重建思路,实现了从单张 2D 图像瞬时生成高质量 3D 人体模型的目标。其核心在于将视频模型先验、人体先验、隐式表示与可微渲染技术紧密结合,构建了一个端到端可微分的优化框架。


重构了传统单目人体重建的管线(图片→3D→绑骨→驱动),极大的提高了泛化性实用性


实验结果证明,IDOL 在重建精度、纹理细节和实时性方面均表现出色,展现了广泛的应用前景。


未来,随着技术的不断演进和数据规模的进一步扩大,该方法有望在 VR/AR、游戏、时尚等领域引领一场 3D 数字内容创作的革新,为实际应用提供更加高效、真实的解决方案。



(文:PaperWeekly)

欢迎分享

发表评论