新开源的FramePack视频生成软件,超压缩+超加速(13B 大模型在仅需 6GB 显存(笔记本也行)条件下可生成 60s、30fps 的高清视频,实测 RTX 4090 每帧约 1.5s),还提供windows一键安装包~ 已加入comfyui全家桶。FramePack 是一种支持逐帧生成、上下文压缩的视频扩散模型架构,能在普通笔电上以低显存高效生成高质量长视频,实现视频扩散“类图像”化的突破。
-
创新结构设计:FramePack 采用“首帧上下文压缩”结构,可将任意长度视频的输入统一压缩成固定长度,有效降低生成复杂度。
-
支持逐帧/分段生成:基于 next-frame-section prediction 机制,视频可分段/逐帧生成,提供持续可视化反馈,提升用户体验。
-
极低硬件门槛:13B 大模型在仅需 6GB 显存(笔记本也行)条件下可生成 60s、30fps 的高清视频,实测 RTX 4090 每帧约 1.5s。
-
多样注意力支持:兼容 PyTorch 原生 attention、xFormers、flash-attn 及 sage-attention,提供更大定制空间与性能优化选项。
-
桌面级可用软件:提供独立 GUI(Gradio 实现),即装即用,支持图片上传 + 文本提示词控制生成,可快速入门实测。
-
Sanity Check 提示详尽:提供测试图像与提示词校验流程,帮助排查硬件或模型设置问题,便于初学者快速上手。
-
Teacache 性能调节机制**:引入缓存加速机制(teacache),提升推理速度同时兼顾质量,但需权衡不同硬件间的差异化效果。
-
提示词优化指南:内置 ChatGPT prompt 模板引导写作,偏好描述动作明确、动态性强的情景,如“跳舞”“滑板”等。
-
学术背景扎实:论文已上线 Arxiv,作者为知名研究者 Lvmin Zhang 与 Stanford 教授 Maneesh Agrawala,理论基础与实用性兼备。
-
完全开源自由使用:基于 Apache-2.0 协议开源,用户可自由研究、修改和商用。


参考文献:
[1] https://github.com/lllyasviel/FramePack
[2] https://github.com/lllyasviel/FramePack/releases/download/windows/framepack_cu126_torch26.7z
[3] https://github.com/kijai/ComfyUI-FramePackWrapper
知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。
(文:NLP工程化)