阶跃星辰 Tech Fellow 段楠:Step-Video 系列模型的关键技术解读
4 月 18-19 日,由 CSDN&Boolan 联合举办的「2025 全球机器学习技术大会」将在上海虹桥西郊庄园丽笙大酒店隆重举行,云集多位重量级嘉宾分享前沿议题。段楠博士将详解多模态大模型进展,并深入剖析 Step-Video-T2V 和 Step-Audio 模型的最新成果和挑战,为参会者提供宝贵见解。
4 月 18-19 日,由 CSDN&Boolan 联合举办的「2025 全球机器学习技术大会」将在上海虹桥西郊庄园丽笙大酒店隆重举行,云集多位重量级嘉宾分享前沿议题。段楠博士将详解多模态大模型进展,并深入剖析 Step-Video-T2V 和 Step-Audio 模型的最新成果和挑战,为参会者提供宝贵见解。
阶跃星辰发布30B参数视频生成模型Step-Video-T2V,支持中英双语输入及可变长度视频生成,提供标准版和加速版。采用DiT架构与3D全注意力机制,使用DPO技术优化质量,配置推荐使用步骤推理步数及cfg_scale值。
阶跃星辰开源了视频生成模型Step-Video-T2V和语音模型Step-Audio,参数量分别为300亿和67B。Step-Video-T2V在视频生成质量上表现优异;而Step-Audio是业内首个产品级的开源语音交互模型。