字节悄悄开源了一个全新AI视频生成工具!主打多主体一致性参考生成!

 

AI视频生成领域长期存在一个致命痛点,主角”人格分裂”:同一人物换个场景就变脸,手持物品突然消失,服装细节凭空变换。。。

这种割裂感让专业级应用举步维艰。传统方案要么牺牲自由度保一致性,要么追求多样性丢失角色特征,始终难以两全。

虽然目前国内外主流的闭源视频生成模型(Runway、Vidu、海螺AI、可灵AI、即梦AI等)都支持了角色一致性功能,但是在实际场景中还是会出现细节上的不一致问题。

如何确保在视频中,不同主体(比如人物、物品、动物、二次元虚拟角色等)在各种动作和互动中都能够保持一致,并且自然地融合在一起,一直是AI视频生成技术的难点。

而在几个小时前,字节开源了一个基于参考主体的视频生成工具:Phantom

无论是单主体还是多主体的参考生成,都能够提供流畅、自然且精准的结果,尤其是在人物、物品、服装、动物、虚拟角色等多种主体类型的表现上,展现出了非常高的精度和一致性。

项目简介

Phantom 是字节发布的一个统一的视频生成框架,适用于单主体和多主体参考,基于现有的文生视频、图生视频架构。

它通过重新设计联合文本-图像注入模型,使用文本-图像-视频三元数据进行跨模态对齐。此外,它在人类生成中强调主题一致性,同时增强身份保持的视频生成。

在处理人物、物品、动物、虚拟角色等单/多主体类型都能够保持极高的一致性,使得视频中的每个细节都表现得自然、真实。

确保各个主体的风格、动作、细节都能够准确地融合在一起。

核心亮点

1、支持单主体和多主体参考生成

Phantom 不仅支持单主体视频生成,还能在多个主体间(比如:人物+场景)进行参考生成。

无论是独立人物、物品或动物,还是复杂的多人互动场景,它都能精准保持每个主体在视频中的一致性,避免了常见的主体变形或风格不统一的情况。

2、支持多种主体类型

Phantom 支持多种不同类型的主体,包括:

  • • 人物:从现实人物到虚拟角色,Phantom 都能完美呈现。
  • • 物品:支持包括日常用品、科技产品等多种物品的细节表现。
  • • 服装:人物的服装变化、风格和质感都能得以保留。
  • • 动物:无论是现实中的动物,还是虚拟世界中的奇幻生物,同样能保持一致。
  • • 虚拟角色:为数字人、虚拟偶像或游戏角色创造真实感极强的动态视频。

3、精细化细节表现

通过强大的算法,能够在各种场景和动作变化中保留人物面部特征、服装材质、物品细节等,从而实现无缝的视觉过渡。

4、支持多场景与复杂动作

支持室内外场景,还能支持复杂的动作和互动。并且在不同场景下都能确保每个细节和动作都被精准处理。

在多主体互动时,它能够根据参考主体的动作自动调整其他主体的行为,并确保所有动作在场景中协调一致。

适用场景

  • • 广告视频:比如品牌广告中的虚拟代言人,穿着品牌服饰,与物品互动,保证这些元素的精细表现。
  • • 影视制作:模拟不同角色的动作、表情和服饰,使得后期制作变得更加轻松。
  • • 游戏动画:可以帮助生成包括人物、物品和虚拟角色在内的复杂互动场景。

写在最后

随着AI技术的不断发展,视频生成已经不再是一个遥不可及的梦想。

字节推出的 Phantom 也给广大的开发者和创作者一个新思路、新途径,它通过高效的主体一致性保持、灵活的场景适应能力以及强大的多主体处理能力,让创意与想象更近了。

目前代码还没有发布,相信未来可期。

项目主页:https://phantom-video.github.io/Phantom

GitHub 项目地址:https://github.com/Phantom-video/Phantom

● 一款改变你视频下载体验的神器:MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐(2023版)

● Star 50.3k!超棒的国产远程桌面开源应用火了!

● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!








(文:开源星探)

欢迎分享

发表评论