
LLM的更新可能大家关注的比较多一些,但3D板块真的不能忽略,这是真的有落地场景的技术。
之前的AI生成3D模型也给大家介绍过一些,但今天这个真的是完全不一样了,有了超强的空间想象能力。
能真正的理解物体的本质,预测内部结构,这也是首个3D结构化模型。
北京大学、字节跳动、卡内基梅隆大学共同开源的,现在只是放出DEMO和论文,作者说7月15号之前公布代码和模型,一起来监督。

写的这么大,不至于放鸽子吧。。
这代码还没公布,就有1600人点星等着了。
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)

项目简介
PartCrafter 是首个结构化 3D 生成模型,能从单张 RGB 图像联合合成多个语义有意义且几何不同的 3D 网格。它采用统一的组合生成架构,无需预分割输入,基于预训练的 3D 网格扩散 Transformer,引入组合潜在空间和分层注意力机制,确保生成时的全局一致性和部件级细节。其从大规模 3D 对象数据集中挖掘部件级注释,构建了新数据集,在生成可分解 3D 网格方面优于现有方法,能自动推断图像中不可见的 3D 结构。
DEMO
图片转3D(零件级)


图片转3D场景


技术特点
统一组合生成架构:无需预分割输入,从单张 RGB 图像直接端到端生成多个 3D 部件及对象,避免两阶段管线的分割误差与计算开销。
组合潜在空间:每个 3D 部件由一组解耦的潜在标记表示,支持部件独立编辑、移除或添加,且全局资产标记通过拼接各部件标记构建。
分层注意力机制:通过局部注意力捕获部件内细节,全局注意力建模跨部件交互,结合身份感知与排列不变性,确保生成的全局一致性与部件级细节。
基于预训练模型的重构:继承预训练 3D 网格扩散 Transformer 的权重、编解码器,将其重组为支持可变数量潜在标记集的组合架构。
大规模部件级数据集:从 Objaverse、ShapeNet 等挖掘部件注释,合并构建包含 50,000 个部件标记对象和 300,000 个独立部件的数据集。
Rectified Flow Matching 训练:通过线性轨迹将噪声高斯分布映射到数据分布,共享噪声水平确保多部件采样一致性。
项目链接
https://wgsxm.github.io/projects/partcrafter/
关注「开源AI项目落地」公众号
(文:开源AI项目落地)