阶跃星辰刚刚开源了其30B参数视频生成模型:Step-Video-T2V

阶跃星辰刚刚开源了其30B参数视频生成模型:Step-Video-T2V,可生成最多204帧的视频,支持中英双语输入。

  • 有两个版本:Step-Video-T2V,标准版;Step-Video-T2V-Turbo,经过推理步骤蒸馏的加速版
  • 采用DiT架构配合3D全注意力机制
  • 48层结构,每层48个注意力头
  • 使用DPO技术优化视频质量
  • 支持可变长度视频生成
  • 标准版推荐使用30-50步推理,cfg_scale=9.0
  • Turbo版本推荐使用10-15步推理,cfg_scale=5.0

参考文献:
[1] https://github.com/stepfun-ai/Step-Video-T2V
[2] https://huggingface.co/stepfun-ai/stepvideo-t2v
[3] https://huggingface.co/stepfun-ai/stepvideo-t2v-turbo


(文:NLP工程化)

欢迎分享

发表评论