最强开源短剧创作模型来了!33种表情、400种肢体动作,好莱坞级AI导演监制

AI真成影帝了!一手实测国内首个AI短剧创作模型。
作者 |  程茜
编辑 |  漠影

当下大模型的焦点无疑是火遍全球的DeepSeek,但其本质上是纯语言模型,多模态大模型赛道的战火同样火热。

智东西2月18日报道,今天,昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1中国首个SOTA级别基于视频基座模型的表情动作可控算法SkyReels-A1

视频生成模型的竞争已攀升至全新高度。

SkyReels-V1基于混元大模型训练,是Human-Centric Video Foundation Model(以人为中心的视频基础模型),支持文生视频、图生视频,性能可以对标快手可灵、MiniMax海螺AI等闭源模型,微表情还原、专业运镜、好莱坞级的画面构图通通可以一键完成。

这两大模型的能力目前可以在昆仑万维的AI短剧平台SkyReels上体验到,该平台主页下方已经出现了不少复杂任务的生成实例,各种好莱坞大片即视感的视频被不少用户在几分钟之内创作了出来。

▲SkyReels平台主页

当下视频生成领域应用颇为火爆的就是AI短剧,SkyReels包圆了从剧本生成、分镜、BGM到人物对白等各个环节,“一个人拍爽剧”成为现实,一举拉低了短剧创作的门槛,加速了视频生成模型的应用与普及。

这一背景下,SkyReels-V1视频大模型的惊艳效果实际表现如何?真的人人都能成为短剧创作者吗?带着这些问题,智东西抢先体验了昆仑万维全新升级的AI短剧生成平台SkyReels。

开源地址:
https://github.com/SkyworkAI/SkyReels-V1
https://github.com/SkyworkAI/SkyReels-A1
技术报告地址:
https://skyworkai.github.io/skyreels-a1.github.io/report.pdf


01.
一键拍短剧!怼脸镜头表情不崩
运镜、构图是好莱坞级别


春节档爆火的《哪吒之魔童降世》票房冲破百亿,很多用户围绕着哪吒2的主演开启了视频生成二创。

SkyReels的图生视频效果自然也不在话下。我上传了一张哪吒乘坐“飞天猪”变成的车的静态图片(视频上方的静态图)后,输入提示词,哪吒开车的同时头发随风飘扬的细节也被完整呈现了出来,并且飞天猪脚底的“风火轮”也出现了火的元素,人物与画面背景十分协调。

回顾视频生成模型刚刚诞生之时,用户在体验相关产品时往往会面临生成速度慢,且生成效果与用户提示词大相径庭,人物表情生硬、不自然等情形,如今随着技术的发展,昆仑万维SkyReels、快手可灵、MiniMax海螺AI等诸多产品的升级迭代使得视频生成模型的可用性大大增强。

首先,对于视频、短剧而言,人物的微表情是一大难关。一般而言,人物的微表情持续时间短且变化幅度小,但对于传递人物真实情感至关重要。

SkyReels生成的医院场景视频中,病床上男主与旁边女主的对话过程中,两者的表情变化都十分自然。可以看到,怼脸镜头女主的表情也完全不会崩,伴随着声音哽咽女主在抿嘴时下巴还会轻微颤动。躺在病床上的男主在说话时,脸上和脖子上的皱纹、皮肤也会随之变化。这些细节的变化处理,正是准确传达人物当下感情的关键。

第二点就是用镜头语言来增强画面的故事感。一段视频中往往会通过不同机位来刻画重点,如通过大全景来呈现事件发生的地点,或移动镜头到不同的人身上,体现画面主体的变化。

例如下面这一段视频中,先由教堂的场景引入,显示男主所处环境,然后通过场景的转移、周围人物的变化交代男主身份。女主出现的剧情同样如此,通过环境与人物特写等助推故事情节发展。在男女主对话的过程中,镜头会跟随说话主体给到主角特写。

第三点就是画面中的人物站位、构图以及画面主体的切换等,在真人拍摄中往往需要演员、导演的相互协同,同时还要搭建场景或者借助天气来达到最佳拍摄效果。现在AI可以随时随地就能做到。

正如下面视频中,镜头的转化丝滑,刚开始主角的声音伴随着回忆镜头中穿插切换家人的合影、躺着的小女孩、奔跑的伤员等,丰富了故事细节,随着镜头的缓慢移动,出现主角人物,再用特效切换画面,由人物到最后复仇的场景。
如此逼真丰富的故事细节,视频生成模型可以基于对文字的理解自己生成,从来形成一个完整的短剧作品。

可以看到,在人物表情、镜头切换以及画面构图方面,SkyReels生成的效果都有了显著提升。


02.
视频生成模型关键突破:
生成精准、速度更快、结果可控


SkyReels平台升级背后的核心,正是昆仑万维最新发布的SkyReels-V1视频大模型。

视频生成赛道发展至今,已经从经常“翻车”、简单的PPT式画面,进化为流畅、有镜头变化、角度转移的流畅视频,对于AI短剧而言,用户更关注的是生成人物的微表情,才能准确传递剧情,因此对于微表情、精准可控的生成效果要求更高,如何精进生成效果让用户拿来即用成为摆在视频生成模型玩家面前的难题。

在生成视频、短剧时,最为关键的要求就是生成精准、可控性高且推理、生成的速度足够快,这同样是SkyReels-V1视频大模型背后技术的核心杀手锏。

首先在生成精准方面,视频生成要精准呈现人物微表情、同时需要把握整个画面的合理构图、细微的光影变化等诸多要素。

目前,SkyReels-V1已经可以支持33种细腻人物表情与400多种自然动作组合,可以高度还原人物的大部分表情。同时其背后的训练数据是好莱坞级的影视数据,画面的构图、演员站位、相机角度都更具电影级质感。

下方视频中哭泣的女生,从眼眶微红、眼含热泪、嘴角颤动、蹙眉道鼻子微红、头发摆动,都充分显示了她当下的悲伤情绪。

让人物的表情、动作、画面构图、以及镜头语言的逼真表达背后,就是昆仑万维自研的人物智能解析系统,其中包含影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解。

该系统的综合作用下,模型可以实现11种人物表情理解,准确表达不屑、不耐烦、无助、厌恶等表情,同时基于人体三维重建技术,实现影视级的人物站位以及人物行为的精准理解,同时人物-服装-场景-剧情之间形成关联分析,最终使得视频效果保持完整、连贯、逼真。

可以看出,在下方短短4秒的视频中包含了诸多关键元素。只有背影的人物在说话时身体微微颤动,露出正面的人物眼神变化、微微蹙眉都传达了其的感受,还有男主肩头光影的变化,让人物与周围环境产生了交集。

生成精准还体现在精准可控的人物视频生成,生成的视频准确提取了Driving Video中的表情、动作特征,从讲话的口型、五官的变化甚至到头部的轻微摆动都完整复刻了出来,但Runway在生成这个视频时没有成功。

即使是与Driving Video完全不同的脸部角度,生成的视频效果也能准确呈现表情的生动变化。相比于Runway的生成效果,可以看出SkyReels-A1生成的视频表情更加丰富,讲话过程中不仅有眉毛眼睛的变化,还呈现了额头皱纹,人物效果更为逼真。

其二就是速度,视频生成的速度对于用户的体验感知也是一个重要影响因素。基于昆仑万维自研的推理优化框架SkyReels-Infer,SkyReels-V1实现544p分辨率推理,基于单台4090只需80s,同时支持分布式多卡并行,支持Context Parallel、CFG Parallel、和VAE Parallel。

在RTX 4090同等规模下,推理生成544p视频,昆仑万维的方案端到端延迟优于视频生成大模型HunYuan Video 58.3%

为了降低用户本身硬件性能对生成速度的影响,扩大体验到更快推理速度的用户群体,昆仑万维采用诸多策略满足低显存用户级显卡运行需求以及优化延迟,如采用FP8量化以及参数级卸载,支持Flash Attention、SageAttention、模型编译优化等进一步优化延迟。

同时为了让用户UGC视频生成的内容更加精准可控,研究人员开源SOTA级别的基于视频基座模型的表情动作可控算法SkyReels-A1,对标Runway的生成式角色表演工具Act-One,实现电影级的表情捕捉。

视频中的女生虽然左右大幅度摆动了头部,但脸上惊恐的表情从始至终都被准确呈现了出来。

而这样的视频生成效果,基于昆仑万维自研的核心技术,使得用户在自己的电脑上也可以轻松实现,高性价比、生成可控正是其优势所在,低成本的AI短剧潮涌起已经成为现实。

反过来看,自研技术进阶与综合产品布局,也正在驱动昆仑万维成为视频生成模型应用领域的领跑者。


03.
大模型技术创新、应用落地两开花
坚持开源策略


短剧爆火的风,已经吹到了视频生成平台之上,用户也开始探索自制短视频。

去年8月,昆仑万维发布的AI短剧产品SkyReels就是视频生成工具的集大成者,包圆了从剧本创作到短剧成品的各个步骤。

SkyReels平台集成了昆仑万维自研剧本大模型SkyScript、自研分镜大模型StoryboardGen、自研3D生成大模型Sky3DGen、以及业界首个将AI 3D引擎与视频大模型深度融合的创新平台WorldEngine。

SkyReels能够通过AI一键生成完整剧本、分镜、人物对白与BGM,支持角色形象、音色与分镜的自定义调整,并能够自动将内容转换为1080P 60帧的高清视频,单次可生成视频长度达180秒。

▲SkyReels短剧创作主页

用户可以将短剧灵感、脚本或者小说上传到平台之上,SkyReels就会自动分析内容生成相应脚本以及对应的主要人物角色,不满意的话还可以重新设备声音和角色形象等。最后SkyReels会将不同镜头的脚本进行合成,形成一部完整的短剧,这些过程中用户都可以根据自己的需求随时修改。

短视频平台中的短剧以高密集爽点为核心,融合了复仇、重生等多种类型,基于此,昆仑万维还构建了亿级的高质量短剧结构化数据集SkyScript-100M,其针对海量精彩短剧的剧情节奏、爽点、情绪变化进行了高质量标注。

SkyReels当下是视频生成模型大规模应用的一大创新方向。一方面,这一综合性的短剧产品降低了短剧的制作门槛,激发用户的创作兴趣;另一方面,SkyReels平台同样也是大模型能力落地到应用产品上的有效路径。

这些成果不仅是昆仑万维技术实力的有力证明,更体现了其在AIGC时代正成为重要的风向标。

2023年4月,昆仑万维提出“All in AGI和AIGC”战略,不局限于单一的产品或技术,而是构建一个完整的AI生态系统,逐步了形成AI大模型、AI搜索、AI音乐、AI社交、AI游戏、AI短剧六大业务矩阵。并且在国内多次首发国内第一款AI细分应用创意新品,从国内第一款AI搜索产品“天工AI搜索”国内第一款AI音乐生成产品“天工SkyMusic”

事实上,昆仑万维在AIGC和大模型领域的布局可以追溯至2020年,并且研发投入一直处于领先水平。昆仑万维2024年第三季度的财报显示,其前三季度研发费用提升至11.44亿元,同比增长高达84.47%。

当下,该公司已经完成“算力基础设施—大模型算法—AI应用”全产业链布局,在战略布局、技术积累、对市场的精准洞察综合作用下,昆仑万维在大模型产业上的优势逐渐增大。

更为重要的是,当下DeepSeek爆火再次引发了业界对开闭源模型的思考,诸多企业由闭源转向开源,昆仑万维一开始就十分重视开源生态

早在2022年,昆仑万维就开源了昆仑天工AIGC全系列算法与模型,此后又开源了开源2000亿稀疏大模型Skywork-MoE 、4000亿参数MoE超级模型、数字智能体全流程研发工具包AgentStudio等。

其一以贯之的开源策略,正在加速助推大模型生态的健康、快速发展。


04.
结语:昆仑万维用全栈AI布局
为AGI时代装上加速引擎


昆仑万维坚持“All in AGI与AIGC”战略布局的同时,已经有了不少的行业应用成果,在其开源策略的布局下,这些成果正在加速国内大模型产业的发展。昆仑万维坚持自研核心技术突破,到如今亮相了实力强劲的开源视频生成模型,在视频生成的诸多关键领域实现了飞跃。同时,在大模型应用方面,昆仑万维的尝试也给了大模型杀手级应用诞生指明了路径。

以往短剧创作需要专业的编剧、导演、摄像、演员等团队协作,以及较高的资金投入。而SkyReels-V1、SkyReels-A1的出现正在打破这样的创作流程,满足更加多样化、个性化的创作需求。随着SkyReels这样产品的出现以及性能的提升,将使得AI短剧的创作生态逐渐成熟,优化模型性能,提升短剧质量,从而推动整个行业的技术创新和内容创新。

在大模型应用的探索之路上,昆仑万维已经走在了行业的前列。随着视频生成模型在流畅性、真实性、分辨率等方面的进一步提升,以及动作准确性、场景逻辑性等问题逐步改善,视频生成的应用将大有可为。尤其在当下热度颇高的短剧领域,SkyReels这样的产品能帮助用户将创意快速转化为短剧作品,使得创作更加自由化、大众化,,有助于推动短剧内容生态的建设,重塑AI短剧行业。

可以肯定的是,首个AI短剧创作模型的发布已经让我们看到了大模型技术的巨大潜力和无限可能。再加上开源模型SkyReels-V1、SkyReels-A1被广泛应用于各个行业和领域,即使没有强大研发团队和大量资金支持的个人或小型团队也能获取先进的视频生成技术,从而推动通用人工智能时代的加速到来。

(文:智东西)

欢迎分享

发表评论