阶跃星辰×光影焕像联合打造超强3D生成引擎Step1X-3D!还开源全链路训练代码


阶跃星辰携手光影焕像发布并开源 3D 大模型 ——Step1X-3D。Step1X-3D 模型总参数量达 4.8B(几何模块 1.3B,纹理模块 3.5B),凭借坚实的数据基础与先进的 3D 原生架构,可生成高保真、可控的 3D 内容。


Step1X-3D 不止于视觉「好看」,更追求实现「好用」与「可控」,旨在为 3D 内容创作提供强大而可靠的技术引擎。这款模型可以广泛应用在游戏娱乐、影视与动画制作、工业制造与设计等各种场景。


Step1X-3D 公布了完整的数据清洗策略,数据预处理策略,以及 800K 高质量的 3D 资产,3D VAE、3D Geometry Diffusion 以及 Texture Diffusion 的全链路训练代码开源,助力 3D 生成社区发展。



  • 论文标题:Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

  • 作者:Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai,  Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan,Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan

  • 代码地址: https://github.com/stepfun-ai/Step1X-3D

  • 项目主页:https://stepfun-ai.github.io/Step1X-3D

  • HuggingFace: https://huggingface.co/stepfun-ai/Step1X-3D

  • 技术报告: https://arxiv.org/pdf/2505.07747



欢迎大家上手体验:


Online Demo(立即体验):https://huggingface.co/spaces/stepfun-ai/Step1X-3D


核心特性与技术支撑


Step1X-3D 尝试解决 3D 内容生成的关键挑战,在数据、生成质量与可控性上进行了创新实践。


1. 数据驱动与算法协同优化


好数据是好模型的基础。Step1X-3D 对超 500 万原始数据进行严格筛选与处理后,建立了包含 200 万高质量、标准化的训练样本库,有效克服了行业数据稀缺与质量参差的瓶颈。


数据处理流程示意图


此外,Step1X-3D 通过增强型网格 – SDF 转换技术等方法,从源头保障了模型学习的精准性与最终生成的高效性,让水密几何转换成功率提升了 20%,也让 Step1X-3D 拥有了强大的泛化能力与细节捕捉力。


Step1X-3D 数据筛选与 SDF 转换流程示意图


2. 3D 原生生成:结构清晰、细节生动


Step1X-3D 采用先进的 3D 原生两阶段架构,解耦几何与纹理表征,确保生成的不仅是视觉「皮囊」,更是结构可靠、可供下游应用的「骨架」,有效规避几何失真,保证生成的准确性、真实感与一致性。


Step1X-3D 的原生 3D 架构



基于 FLUX MMDiT 结构和 Rectified flow 算法直接对 3D 表示生成进行建模。



纹理生成模型基于预训练的 Diffusion model,通过单视图和 3D 几何信息指导,生成多视角一致的纹理信息


2.1 几何塑形更精准:


几何生成的核心在于采用为 3D 特性深度优化的创新混合 VAE-DiT 架构。该架构负责生成水密(Watertight)的 TSDF 内部表示,确保产出的 3D 模型结构完整、无破面漏点;同时通过引入锐利边缘采样(Sharp Edge Sampling)等技术,精准捕捉并还原物体的丰富几何细节。


几何示例:覆盖硬边与曲面结构


2.2 纹理细节更生动:


纹理生成则基于强大的 SD-XL 模型进行深度定制与优化。通过几何条件(利用法线与位置信息)的精准引导,以及潜在空间多视图同步技术,实现了与几何模块的高效协同。确保生成的纹理不仅色彩饱满、质感生动逼真,更能跨越多视图保持高度一致,与复杂三维表面精密贴合,有效避免常见的扭曲与接缝瑕疵。


纹理示例:呈现清晰一致的表面纹理


3. 控制简单、效果可调


Step1X-3D 显著提升了 3D 内容生成的可控性与易用性。其关键在于,VAE-Diffusion 整体架构在设计上与主流 2D 生成模型(如 Stable Diffusion)保持了高度一致性,从而能够无缝引入并应用成熟的 2D 控制技术(如轻量化的 LoRA 微调)。


因此用户可以对生成 3D 资产的对称性、表面细节(如锋利度、平滑度)等多种属性进行直观、精细的调控,让创作更精准地符合用户意图。


对比图 1:对称性控制效果


对比图 2:表面细节控制效果(锋利 / 平滑)


性能评估


为了客观评估 Step1X-3D 的实际效果,我们通过一个自建的综合测试,对 Step1X-3D 进行了严格的定量与定性评估,同时与多款主流模型进行全面对比。


结果显示:在自动评估中,Step1X-3D 在多项关键维度上均表现出色。



在与主流 3D 模型的对比评测中,特别是在衡量内容与输入语义一致性的核心指标 CLIP-Score 上,Step1X-3D 取得了当前所有对比模型中的最高分,为开源社区提供了极具竞争力的 3D 生成方案。


不同 3D 模型测评对比数据


团队介绍


阶跃星辰 Step1X-3D 团队和光影幻像 LightIllusions 团队。阶跃星辰以实现 AGI为目标,规划了从单模态到多模态、再到多模理解与生成统一的技术路径,最终构建世界模型的大模型公司。光影焕像是一家专注于 3D AIGC 和空间智能技术的人工智能初创公司,公司致力于通过 AI 解放 3D 内容生产力。公司自设立之后便迅速建立了算法研发和产品落地并重的海内外人才梯队,拥有一批 3D AIGC 领域顶尖人才,迄今已经发表过多个 3D AIGC 代表性工作,汇集了来自港科大博士、字节、美团等具有顶级研发能力和丰富技术产品化经验的同学。 公司目前持续重点投入 3D 和空间智能相关的 AI 底层模型的研发,打造 3D 空间智能大脑,同时积极推进 3D 内容商业化落地。


官网:https://www.lightillusions.com/


©

(文:机器之心)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往