阶跃星辰刚刚开源了其30B参数视频生成模型：Step-Video-T2V

阶跃星辰刚刚开源了其30B参数视频生成模型：Step-Video-T2V，可生成最多204帧的视频，支持中英双语输入。

有两个版本：Step-Video-T2V，标准版；Step-Video-T2V-Turbo，经过推理步骤蒸馏的加速版
采用DiT架构配合3D全注意力机制
48层结构，每层48个注意力头
使用DPO技术优化视频质量
支持可变长度视频生成
标准版推荐使用30-50步推理，cfg_scale=9.0
Turbo版本推荐使用10-15步推理，cfg_scale=5.0

参考文献：
[1] https://github.com/stepfun-ai/Step-Video-T2V
[2] https://huggingface.co/stepfun-ai/stepvideo-t2v
[3] https://huggingface.co/stepfun-ai/stepvideo-t2v-turbo

（文：NLP工程化）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复