阶跃星辰 Tech Fellow 段楠:Step-Video 系列模型的关键技术解读

4 月 18-19 日,由 CSDN&Boolan 联合举办的「2025 全球机器学习技术大会」将在上海虹桥西郊庄园丽笙大酒店隆重举行,本次大会共设 12 大技术专题,云集院士、IEEE Fellow、顶尖学者、一线科技企业技术实战专家组成的超 50 位重磅嘉宾。他们将以独特的视角,解读智能体、联邦学习、多模态大模型、强化学习等前沿议题。
在 4 月 18 日下午,走在多模态研究前沿的阶跃星辰 Tech Fellow,多模态基础模型领域专家段楠博士将在「多模态大模型前沿」专场带来《视频生成基础模型进展、挑战和未来》的主题分享,分享其在视频生成基础模型方面的最新研究成果和前瞻性思考。
段楠博士拥有深厚的学术背景和丰富的产业经验。他长期深耕自然语言处理、代码智能、多模态基础模型和智能体等领域,是中国科学技术大学和西安交通大学兼职博导,天津大学兼职教授。在加入阶跃星辰之前,段楠博士曾在微软亚洲研究院担任资深首席研究员及自然语言计算团队研究经理长达十二年,对自然语言处理和多模态技术的发展做出了卓越贡献。

Step-Video-T2V & Step-Audio:开源多模态模型的巅峰之作
据相关技术报告评测,阶跃星辰开源的两款具有突破性的 Step-Video-T2V 和 Step-Audio 模型都处于世界领先水平;而 Step-Audio 则是业内首款产品级的开源语音交互模型 。
  • Step-Video-T2V:https://github.com/stepfun-ai/Step-Video-T2V
  • Step-Audio:https://github.com/stepfun-ai/Step-Audio
Step-Video-T2V 是全球领先的视频生成模型,参数量高达 300 亿,可生成长达 8-10 秒的 540P 高质量视频,确保内容信息密度和时空一致性,支持文生视频、图生视频等多种任务,覆盖复杂运动和电影级镜头语言等 11 类内容生成需求,并原生支持中英双语输入。
此外,Step-Audio 是全球首个可直接应用于工业级的开源语音交互模型,支持多语种语音生成与理解,具有实时性和高保真音质,适用于智能客服和跨语言翻译等场景。Step-Video-T2V 在多项指标上超越现有开源模型,并已应用于自动驾驶和影视创作等领域,展现了强大的应用潜力。
在 2025 全球机器学习技术大会上,段楠博士将围绕阶跃星辰开源的 Step-Video 系列模型,深入剖析当前视频生成基础模型的最新进展,涵盖文生视频和图生视频等关键任务。此外,段楠博士还将系统总结现有视频生成模型面临的主要挑战,并与参会者共同探讨未来可能的发展方向,为开发者和研究者提供极具价值的参考和启发。
无论你是科研学者、技术专家,还是行业从业者,都将在这里收获前沿洞见和实践经验,共同推动 AI 时代的技术变革与应用落地。

ML Summit 2025 创新展区:与您携手探索 AI 新篇章
2025 全球机器学习技术大会(ML Summit 2025)不仅是技术领域的深度交流平台,更是推动 AI 生态融合、促进行业协同创新的重要契机。此外,延续往年传统,本次大会将继续在主会场外继续设置与 AI 有关的企业创新展区。届时,将有众多 AI 产业链上的优秀企业带来技术产品方案展示。目前展位已所剩不多,欢迎申请。
▲2024全球机器学习技术大会展区盛况
我们诚邀全球 AI 产业参与者积极加入,共同捕捉前沿趋势,探索产业升级路径,推动 AI 走向更广阔的应用场景。期待在 ML Summit 2025,与每一位同行者携手见证 AI 时代的新篇章

↓↓ 点击「阅读原文」,查看「2025 全球机器学习技术大会」嘉宾最新动态与演讲议题!

(文:AI科技大本营)

欢迎分享

发表评论