大半年过去,主流视频生成模型们超越Sora了吗? 上午10时 2024/11/24 上午10时 2024/11/24 作者 机器之心 本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 近日,有消息称 OpenAI 的视频生成模型 Sora 将正式上线。在 Sora 发布后的近 9 个月时间里,MiniMax-Video-01、Kling 1.5 等视频生成模型陆续发布,不少表示已经达到了 Sora 级别。 大半年过去了,这些主流视频生成模型们超越 Sora 了吗? 目录 01. 大半年过去,这些主流视频生成模型们超越 Sora 了吗? Sora 发布大半年之后,主流的文生视频模型表现如何?类 Sora 模型们追上了吗? 02. 超越 Sora?文生视频领域关键技术进展盘点 T2V 模型目前面临的共同挑战有哪些?T2V 领域有哪些关键技术进展? 03. AI 视频生成技术仍不成熟,距离「好用」还很远 AI 视频生成应用距离「好用」还有多远? 01 大半年过去,这些主流视频生成模型们超越 Sora 了吗? 1、今年 2 月,视频生成模型 Sora 发布,可以输出长达一分钟的高质量视频,打破了在此之前仅可生成几秒视频的限制。且生成效果惊艳,可以维持时间和空间上的一致性,特别是在动态场景的 3D 一致性和长时依赖关系处理方面表现优异。 2、然而 Sora 作为「期货」迟迟没有发布,屡次传出研究搁置、将于近期正式上线等消息。在 Sora 发布后的近 9 个月时间里,MiniMax-Video-01、Kling 1.5 等视频生成模型陆续发布,不少表示已经达到了 Sora 级别。 3、目前,视频生成技术仍处于早期不成熟阶段。文生视频模型的研究主要分为三条技术路径。其中,以 Sora 为代表的 DiT 架构是当下主流的技术路径。 ① 以 Stable Diffusion 为基础,沿着文生图,将文生图拓展到时间维度,采用逐帧生成的思想,适用于时长较短地视频生成; ② 将扩散模型(Diffusion Models)应用于视频生成,如 Meta 的 Make-a-video、Runway 的 Gen 系列模型均采用了扩散架构。在此基础之下,又出现了 Diffusion Transformers(DiT)架构,将 Transformer 引入到扩散模型中,Transformer 能够通过自注意力机制(Self-Attention)能够捕捉全局依赖关系,能够更好地理解和生成复杂图像结构。Sora、Vidu 等均是 DiT 架构,相较于第一条路径,DiT 架构对于长文本或长视频的理解能力会更强,生成能力也更好,是目前的主流技术路径; ③ 还有一条目前应用较少,但同样有潜力的技术路径,即基于大型语言模型(LLM)的自回归架构,如谷歌团队发布的 VideoPoet 模型,能够从多种条件信号合成高质量视频,采用了仅解码器的 Transformer 架构,处理包括图像、视频、文本和音频在内的多模态输入。 ④ 此外,还有一种研究方向为通过大世界模型(Large World Model)来做视频生成模型,通过整合视频和语言数据,来实现多模态理解和生成。如 UC Berkeley 的 LWM,设计了 RingAttention 机制,可以高效处理长达 100 万个 token 的序列。 4、在 Sora 模型之后,国内外不乏有多个模型在生成视频时长、分辨率、复杂场景等维度逼平或超越了 Sora 模型。[13] [17] 表:2024 年文生视频模型及产品信息(部分) 1) abab-video-1( MiniMax) ① abab-video-1 模型主打高清视频生成,可以生成原生高分辨率、高帧率视频,最高支持原生分辨率 1280*720 的 25 帧视频,效果不亚于 Sora。在视频生成模型评测体系 VBench 上,在画质、连贯性等方面处于领先,其中 Quality Score 为 85.13%,位列第二,仅次于谷歌的 T2V-Turbo-v2(85.13%)。 ② abab-video-1 模型由 MiniMax 于今年 9 月发布,基于该模型的海螺 AI 创意视频平台支持文生视频、图生视频功能,在运动场景的生成方面生成效果优越,尤其是人体动作的流畅度和逼真度表现。 2)Kling 1.5(快手) ① Kling 模型实现了生成视频时长的突破,可以生成长达 2 分钟的视频。Sora 生成的视频时长为 1 分钟。 ② Kling 模型由快手于今年 6 月发布,能够生成时长 2 分钟、1080p 分辨率的高质量视频。9 月,推出了 1.5 版本,新版本模型提高了画质,能够直出 1080p 视频,在画面主体动幅更大、动作、质量、文本响应度方面进行了优化。同时,引入了「运动笔刷」功能,提升了视频生成的控制能力。 3)豆包视频生成(字节) ① 豆包视频生成模型 PixelDance 和 Seaweed 主要的优势在精准的语义理解,以及多动作多主体交互,在多个镜头切换时,能保持主体、风格、氛围和逻辑的一致性。根据论文《Make Pixels Dance: High-Dynamic Video Generation》,PixelDance 在使用文本指令基础之上,还引入了图像指令,包括视频的第一帧和最后一帧的图像,可以提供更精细的视觉细节和控制视频的开始和结束场景。同时,能够生成连续的视频片段,并在生成过程中使用前一片段的最后一帧作为下一片段的第一帧指令,以确保时间一致性和视频质量。 ② PixelDance、Seaweed 两款模型由字节跳动于今年 9 月推出,基于自研的 DiT(Document Image Transformer)架构,主打时序性复杂动作指令和交互能力。模型支持多摄像头控制(如缩放、平移、旋转和跟踪),并能生成 3D 动画、2D 动画和传统艺术风格等多种类型的视频。 4) Dream Machine 1.5( Luma AI) ① Dream Machine 模型被称为是 Sora 的「最强竞品」,能够根据文字或图片生成高质量的逼真视频,视频生成速度快,能够在 120 秒的时间内生成 120 帧画面。 ② 今年 8 月,Luma AI 发布了 Dream Machine 1.5 版本,相较于 1.0 版本,提升了视频生成效果以及动作追踪能力,同时能生成更准确的带有文字的画面。 5) Gen-3 Alpha( Runway) ① Gen-3 Alpha Turbo 模型在生成视频一致性和运动控制方面具有优势。Gen-3 Alpha Turbo 模型拥有摄像机控制功能,用户能够精确控制摄像机运动,实现平滑环绕和戏剧性变焦。在 Runway 展示的示例视频中,用户可以自由地放大和缩小场景,保持 AI 生成的角色和背景的完整性,3D 效果逼真。在视频生成模型评测体系 VBench 上,Gen-3 的 motion smoothness 的评分较高为 99.23%,Gen-2 为 99.58%。 ② Gen-3 Alpha 模型由 Runway 于今年 6 月发布 ,对比上一代模型在在光影、质量、构图以及文本语义还原等方面实现了提升。Gen-3 Alpha 是新模型系列的首款,支持高度可描述性的视频生成,包括时间密集字幕和创意场景过渡。 5、尽管生成效果惊艳的视频生成模型陆续推出,但视频生成模型目前存在的动态运动、多镜头场景、在长时间视频中保持动态一致性等方面的共同缺陷仍存在。 02 超越 Sora?文生视频领域关键技术进展盘点 针对于文生视频领域,技术进展主要集中在长视频、视频分辨率、多物体生成/交互、复杂场景、多镜头、动态运动等方面。[14] 1、长视频生成 ① 长视频生成是文本到视频(T2V)领域的一个研究方向,要求模型能够理解和模拟长期时间依赖关系,并保持视频内容的连贯性…… 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 👀 往期回顾 👀 01 AI 竞赛进入推理阶段:扩展测试时计算是万能的吗?Scaling What 成为关键 传统的 Scaling Laws 范式是否已经达到极限?新的 Scaling Laws 范式能否解决数据难题?只要扩展测试时间计算,就能够实现通用人工智能吗?「LLM + 推理模型」是否能实现类人智能?LLM 真的具有推理能力吗?… 02 谁能进入下一轮?具身智能「练习生」的技术储备和商业路径有何异同? 具身智能创企融资规模如何?明星「练习生」都有哪些头部资源支持?各家创企技术路径有何差异?「练习生」都有哪些技术储备?具身智能还差些什么?… 03 「压缩即智能」,成就 LLM 的 Transformer 未必是终极解? 知识压缩理论已经获得验证了?LLM 范式有变革征兆了?LLM 范式会向哪个方向演进?为什么Transformer 未必能够长青?有哪些声音在质疑Transformer?有哪些非Transformer的可行路线?… 04 从文本到屏幕:「Project Jarvis」们能实现 AGI 吗? 头部 AI 公司为何都在做 AI 自主计算机操控?这事可行吗?和RPA的区别是什么?AI Agent自主操控计算机需要具备哪些能力?微软、谷歌、Anthropic 在 AI Agent 方面的动作有何异同?… 更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。 (文:机器之心) 欢迎分享