AI视频生成领域长期存在一个致命痛点,主角”人格分裂”:同一人物换个场景就变脸,手持物品突然消失,服装细节凭空变换。。。
这种割裂感让专业级应用举步维艰。传统方案要么牺牲自由度保一致性,要么追求多样性丢失角色特征,始终难以两全。
虽然目前国内外主流的闭源视频生成模型(Runway、Vidu、海螺AI、可灵AI、即梦AI等)都支持了角色一致性功能,但是在实际场景中还是会出现细节上的不一致问题。
如何确保在视频中,不同主体(比如人物、物品、动物、二次元虚拟角色等)在各种动作和互动中都能够保持一致,并且自然地融合在一起,一直是AI视频生成技术的难点。
而在几个小时前,字节开源了一个基于参考主体的视频生成工具:Phantom。

无论是单主体还是多主体的参考生成,都能够提供流畅、自然且精准的结果,尤其是在人物、物品、服装、动物、虚拟角色等多种主体类型的表现上,展现出了非常高的精度和一致性。
项目简介
Phantom 是字节发布的一个统一的视频生成框架,适用于单主体和多主体参考,基于现有的文生视频、图生视频架构。


它通过重新设计联合文本-图像注入模型,使用文本-图像-视频三元数据进行跨模态对齐。此外,它在人类生成中强调主题一致性,同时增强身份保持的视频生成。
在处理人物、物品、动物、虚拟角色等单/多主体类型都能够保持极高的一致性,使得视频中的每个细节都表现得自然、真实。
确保各个主体的风格、动作、细节都能够准确地融合在一起。

核心亮点
1、支持单主体和多主体参考生成
Phantom 不仅支持单主体视频生成,还能在多个主体间(比如:人物+场景)进行参考生成。
无论是独立人物、物品或动物,还是复杂的多人互动场景,它都能精准保持每个主体在视频中的一致性,避免了常见的主体变形或风格不统一的情况。


2、支持多种主体类型
Phantom 支持多种不同类型的主体,包括:
-
• 人物:从现实人物到虚拟角色,Phantom 都能完美呈现。 -
• 物品:支持包括日常用品、科技产品等多种物品的细节表现。 -
• 服装:人物的服装变化、风格和质感都能得以保留。 -
• 动物:无论是现实中的动物,还是虚拟世界中的奇幻生物,同样能保持一致。 -
• 虚拟角色:为数字人、虚拟偶像或游戏角色创造真实感极强的动态视频。

3、精细化细节表现
通过强大的算法,能够在各种场景和动作变化中保留人物面部特征、服装材质、物品细节等,从而实现无缝的视觉过渡。
4、支持多场景与复杂动作
支持室内外场景,还能支持复杂的动作和互动。并且在不同场景下都能确保每个细节和动作都被精准处理。
在多主体互动时,它能够根据参考主体的动作自动调整其他主体的行为,并确保所有动作在场景中协调一致。
适用场景
-
• 广告视频:比如品牌广告中的虚拟代言人,穿着品牌服饰,与物品互动,保证这些元素的精细表现。 -
• 影视制作:模拟不同角色的动作、表情和服饰,使得后期制作变得更加轻松。 -
• 游戏动画:可以帮助生成包括人物、物品和虚拟角色在内的复杂互动场景。
写在最后
随着AI技术的不断发展,视频生成已经不再是一个遥不可及的梦想。
字节推出的 Phantom 也给广大的开发者和创作者一个新思路、新途径,它通过高效的主体一致性保持、灵活的场景适应能力以及强大的多主体处理能力,让创意与想象更近了。
目前代码还没有发布,相信未来可期。
项目主页:https://phantom-video.github.io/Phantom
GitHub 项目地址:https://github.com/Phantom-video/Phantom

● 一款改变你视频下载体验的神器:MediaGo
● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star
● 最新最全 VSCODE 插件推荐(2023版)
● Star 50.3k!超棒的国产远程桌面开源应用火了!
● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!
(文:开源星探)