昆仑万维发布中国首款“空间智能大模型”,融合3D世界和可交互视频生成|

一个比Sora更懂物理世界的世界模型。

作者|赵健


近期,DeepSeek R1与OpenAI o3带火了推理模型,全世界都在恶补强化学习。


不过,无论是DeepSeek还是OpenAI,当前的推理模型仍集中于文本领域,而文本之外的其他模态的AI进展也同样不容忽视。


常见的多模态生成任务包括文本、图像与视频生成。AI生成可交互3D场景作为一种新兴的多模态任务,也被称为“空间智能”的领域,在国内有了一项新突破。


这就是昆仑万维今天刚刚发布的空间智能大模型Matrix-Zero输入一张图片,Matrix-Zero既可以生成可自由探索的真实合理的3D场景,也可以生成可交互的视频内容。该模型预计在4月份上线。


空间智能领域有不少AI创业公司与大厂在布局,比较知名的有“AI教母”李飞飞成立的首家创业公司World Labs,以及谷歌DeepMind发布的“世界模型”Genie。


Matrix-Zero就是昆仑万维发布的“世界模型”。昆仑万维成为国内第一家同时推出“3D场景生成+可交互视频生成模型”的探索空间智能的AI公司


空间智能技术对于游戏开发、具身智能等行业的发展具有重要价值,而昆仑万维在空间智能这一细分领域走在了行业探索的最前列。


1.为什么要关注空间智能?

空间智能为什么值得关注?因为大多数通用AIGC工具生成的是2D内容,如图像或视频,而以3D形式生成的内容则提高了控制和一致性,这将改变行业制作电影、游戏、模拟器以及其他数字形式的物理世界的方式。


李飞飞曾提到:“空间智能让机器脱离数据中心,进入现实世界,理解丰富的三维、四维世界”,并总结为“I see,I move,I think,so I am”(我看、我动、我思,故我在),突出视觉、运动与认知的融合。


在过去,由于传统AI模型集中于语言和数值数据,难以理解杂乱无章、结构不定且不断变化的真实物理世界,所以空间智能的发展存在重重挑战。直到最近两年生成式AI爆发,让机器来理解三维物理世界的技术越发成熟,空间智能成为一个炙手可热的创新领域。


英伟达高级研究科学家Jim Fan曾用一句话总结了AI内容进化史:“Stable Diffusion是2D缩影;Sora是2D+时间维度的缩影;而World Labs是3D、沉浸式的缩影”。


大部分2D AIGC产品,比如图像模型与视频模型,虽然发展迅猛,但受制于像素空间和3D空间的差异,往往存在生成结果不一致、物理不合理等问题。


3D AIGC生成工具又可以分为两种场景,一是TripoAI、Meshy、腾讯混元等主要关注在单个物体模型的生成,一般支持文生3D与图生3D;二是World Labs、谷歌Genie等,主要关注在3D场景的生成,以图生3D场景为主。如果用游戏举例,前者聚焦在形形色色的人物角色生成,后者聚焦在人物角色所处的环境、背景的生成。


Matrix-Zero世界模型采用了与World Labs与Genie不完全相同的技术路线。Matrix-Zero包含了两款子模型:3D场景生成大模型和可交互视频生成大模型,可以将3D场景生成与可交互视频生成进行融合,是一条独具特色的路线。




2.3D场景生成+可交互视频

Matrix-Zero的两大特色

Matrix-Zero既是一个可自由探索的真实合理的3D场景生成模型,也是一个可交互的视频生成模型。


Matrix-Zero的第一个子模型是3D场景生成大模型,支持将用户输入的图片转化为可自由探索的真实合理的3D场景,其最大亮点功能是“全局一致性”,同时比李飞飞Worlds Labs实现更大范围的自由探索,而且包括动态物理效果


全局一致性是指图像、视频与3D等AIGC工具在生成内容上保持逻辑、风格、情节的连贯性与一致性。以视频为例,如果上一秒的主角穿着蓝色外套,下一秒的主角却变成了红色外套,这样是无法真正具备生产力价值的。


Matrix-Zero旗下3D场景生成大模型包含两个核心模块:场景布局生成模块和纹理生成模块。布局模块通过可微渲染和扩散模型生成与输入图片一致的3D布局;纹理模块基于图片和视频模型训练,生成符合布局的精准视频。两者结合经3D Gaussian Splatting进行端到端优化即可得到初始场景。当用户移动时,模型会自动补全缺失区域,确保场景始终合理且一致。


比如,Matrix-Zero可以生成在360度环视下前后一致的3D场景:


也可以生成在360度俯视下前后一致的3D场景:

在自由度探索上,World Labs发布的Demo只能实现“左右前后”四个方向的小范围移动。相比之下,Matrix-Zero支持在场景中进行任意方向的长距离、大范围的探索,比如环视、先环视再前进、后退、前进后右转、360度俯视、180度回头、持续左转等自由度。在3D场景的空间自由探索上,Matrix-Zero做到了行业领先的水平。



在场景风格上,无论输入图片是卡通风格或写实风格,Matrix-Zero均可生成合理的3D场景。

而且,Matrix-Zero还支持风格迁移,对同一张输入图片,支持不同风格的场景生成。比如输入写实风格的图片,能生成卡通风格的3D场景。



此外,Matrix-Zero不仅支持静态场景生成,其生成的3D场景中还可包含动态物体,且动态符合物理规律,如光照效果,水花动态、云雾动态等。



Matrix-Zero的第二个子模型,是“可交互”的视频大模型提供以用户输入为核心驱动的可交互空间智能视频生成方案,这与World Labs所采取的纯3D场景生成路线不一样,与基于提示词的图像生成视频功能也不一样。


当用户上传一张图片,Matrix-Zero不仅可以生成清晰、稳定、符合物理逻辑的视频,还可以根据用户的实时交互操作做出响应,具备更精准控制的action model。常见的图像视频功能是基于提示词而生成,而Matrix-Zero的可交互视频则可以接受用户任意的键盘移动方向控制、鼠标移动,包括前后左右的移动和视角移动。


如何从3D场景渲染出视频?首先在3D场景中放置一个摄像机(下图左橘红色线框所示)并指定其运动轨迹,每一个时刻都可以根据相机位置和朝向将3D场景渲染为视频图片,将这些图片拼接即可得到视频。


比如Matrix-Zero基于一张城市街头图片生成可交互视频,用户可以操控视角选择任意向左侧转向与走动。



Matrix-Zero基于一张沙漠图片生成的可交互视频中,视频会跟随用户视角先向左横移,再小步后退,再猛然转向右侧横移,做大范围的自由探索。


之所以能够做到如此高自由度的可交互视频,在于Matrix-Zero包含的两个系统。核心的是基础视频生成模型,负责根据初始视频帧生成连贯的视频内容。


在此基础上,昆仑万维自研了一个“用户输入交互系统”,包含离散运动控制模块、连续视角控制模块、3D场景位置追踪模块、滑动窗口机制等关键部分,负责解析用户输入并转化为视频调整信号,确保视频内容准确响应用户操作。


该模型不仅支持开放领域的视频生成,还能精确控制视频中的视角移动,满足用户的交互需求,从而拓展在虚拟环境、交互式应用以及沉浸式体验中的应用场景。




3.智能空间时代已来临,一键开启未来之门

2024年11月,昆仑万维创始人周亚辉曾发朋友圈表示,对昆仑万维2024年的AI战略打满分,原因是足够差异化,找到了自己小而大美的空间。


昆仑万维从2020年开始进入AI领域,目前已经完成了“算力基础设施——大模型算法——AI应用”的全产业链布局,并构建了多元化的AI业务矩阵。


在算力基础设施层,昆仑万维2024年就有近万卡的训练资源,足够支撑训练基于多模态的MoE大模型以及视频生成大模型。


在基座大模型上,昆仑万维先后发布了文本大模型天工4.0、音乐大模型天工SkyMusic、推理大模型天工4.0 o1版以及现在的空间智能Matrix-Zero世界模型等。到目前为止,昆仑万维在语言大模型、语音大模型、音乐大模型、3D大模型等方向具备强有力的核心竞争力,这些技术的研发积累为其前瞻、自主、积极地探索空间智能奠定了坚实的基础。


同时,在AI应用层,昆仑万维的业务覆盖AI搜索、AI音乐、AI视频、AI社交、AI游戏等领域,先后推出了AI搜索产品天工AI搜索、AI社交平台Linky、AI短剧平台SkyReels等,并在国内外市场均占有一席之地。


至此,昆仑万维成为国内少数在AI领域全产业链布局的互联网大厂。


昆仑万维在AI上的全产业链布局与其对商业模式的思考息息相关。昆仑万维董事长兼CEO方汉曾表示,AI带来一个很重要的机会是文化平权和多语言带来的蓝海。中国企业在产品优化上、在模式创新上会涌现出更多的结果。如果想成为下一代的互联网AI巨头,一定要在C端产品上做出创新。


此次,昆仑万维发布的空间智能Matrix-Zero世界模型,不仅革新了用户与数字生成环境之间的互动方式,为智能体的研发搭建了虚拟化的基础平台,更为昆仑万维的AI矩阵业务带来全新的助力。而昆仑万维成为中国首家发布3D场景生成、可交互视频生成模型的探索空间智能的企业,正是公司坚持持续技术创新和提前布局AI的结果。


不积跬步,无以至千里。Matrix-Zero的发布只是昆仑万维迈向AGI的一小步,但昆仑万维的每一步都迈得很踏实,小而大美的能量将会在AI时代厚积薄发。


(正文图片与封面图来自昆仑万维)


(文:甲子光年)

欢迎分享

发表评论