阶跃星辰刚刚开源了其30B参数视频生成模型:Step-Video-T2V,可生成最多204帧的视频,支持中英双语输入。
-
有两个版本:Step-Video-T2V,标准版;Step-Video-T2V-Turbo,经过推理步骤蒸馏的加速版 -
采用DiT架构配合3D全注意力机制 -
48层结构,每层48个注意力头 -
使用DPO技术优化视频质量 -
支持可变长度视频生成 -
标准版推荐使用30-50步推理,cfg_scale=9.0 -
Turbo版本推荐使用10-15步推理,cfg_scale=5.0



参考文献:
[1] https://github.com/stepfun-ai/Step-Video-T2V
[2] https://huggingface.co/stepfun-ai/stepvideo-t2v
[3] https://huggingface.co/stepfun-ai/stepvideo-t2v-turbo
(文:NLP工程化)