阿里开源几秒内用人物照片3D建模跳舞,人人都可以是会跳舞的网红。


阿里对这个方向的项目比较执着。


前前后后感觉开源了三四个项目了,最初阿里吊大家胃口不开源,现在脱胎换骨了,有项目就开源出来给大家一起玩玩。


这才是现阶段AI技术应该做的,没到终极形态之前,现有的技术总是会被推翻的,与其挨骂,还不如格局一些。


这次的提升还是很大的。


一方面是时间上,只需要几秒钟搞定。


再就是效果上,真的很不错了,非常稳定。


扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)


项目简介



LHM 是一个基于 transformer 的模型,能够从单张图像在几秒内重建高保真、可动画的 3D 人体模型。它使用多模态 transformer 架构融合 3D 位置特征和 2D 图像特征,通过注意力机制保持服装几何、纹理和面部细节。采用 3D 高斯点云技术实现实时光线真实渲染,训练于大规模视频数据集上,无需对面部和手部进行后期处理。 LHM 在重建准确性、泛化能力和动画一致性方面表现优异,时间和内存使用效率高。


DEMO



技术特点


多模态 Transformer 架构


采用 Multimodal Body-Head Transformer ,通过注意力机制融合 3D 几何特征(基于 SMPL-X 模板网格采样点)和 2D 图像特征(来自预训练视觉模型),实现几何与视觉信息的联合推理。


头部特征金字塔编码


提出多尺度特征聚合方案,利用 DINOv2 模型提取不同层级的头部特征,有效保留面部细节和纹理。


3D 高斯点云表示


将人体表示为 3D 高斯点云,支持实时渲染和基于线性蒙皮的动态姿态控制,同时通过扩散体素蒙皮优化衣物变形。


自监督训练策略


结合视频数据和合成数据增强,通过渲染损失和正则化约束(如形状正则化和位置锚定)学习可泛化的人体先验,无需标注 3D 数据。


高效推理与性能优势


单张图像输入即可在秒级完成 3D 重建和动画生成,在静态重建和动态动画任务中均优于现有方法,且内存占用低,仅需18-24GB。


项目链接


https://github.com/aigc3d/LHM


 关注「开源AI项目落地」公众号

(文:开源AI项目落地)

欢迎分享

发表评论