AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
-
模态对齐:需在语言、视觉和动作等多模态空间中建立精确的对齐机制。 -
数据稀缺:缺乏规模化、多模态且具备动作标签的数据集。
-
主页地址:https://sites.google.com/view/enerverse/home -
论文地址:https://arxiv.org/abs/2501.01895
-
通用模型局限性:当前通用视频生成模型缺乏对具身场景的针对性优化,无法适应具身任务中的特殊需求。 -
视觉记忆泛化能力不足:现有方法依赖稠密连续的视觉记忆,容易导致生成长程任务序列时逻辑不连贯,动作预测性能下降。
-
扩散模型架构:基于结合时空注意力的 UNet 结构,每个空间块内部通过卷积与双向注意力建模;块与块之间通过单向因果逻辑(causal logic)保持时间一致性,从而确保生成序列的逻辑合理性。 -
稀疏记忆机制:借鉴大语言模型(LLM)的上下文记忆,EnerVerse 在训练阶段对历史帧进行高比例随机掩码(mask),推理阶段以较大时间间隔更新记忆队列,有效降低计算开销,同时显著提升长程任务的生成能力。 -
任务结束逻辑:通过特殊的结束帧(EOS frame),实现对任务结束时机的精准监督,确保生成过程在合适节点终止。
-
自由设定视角:FAV 支持动态调整锚定视角,克服固定多视角(fixed multi-anchor view)在狭窄场景中的局限性。例如,在厨房等场景中,FAV 可轻松适应动态遮挡关系。 -
跨视角空间一致性:基于光线投射原理(ray casting),EnerVerse 通过视线方向图(ray direction map)作为视角控制条件,并将 2D 空间注意力扩展为跨视角的 3D 空间注意力(cross-view spatial attention),确保生成视频的几何一致性。 -
Sim2Real 适配:通过在仿真数据上训练的 4D 生成模型(EnerVerse-D)与 4D 高斯泼溅 (4D Gaussian Splatting) 交替迭代,EnerVerse 构建了一个数据飞轮,为真实场景下的 FAV 生成提供伪真值支持。
-
高效动作预测:生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保动作预测的实时性。 -
稀疏记忆支持:在动作预测推理中,稀疏记忆队列存储真实或重建的 FAV 观测结果,有效提升长程任务规划能力。
-
在短程生成任务中,EnerVerse 表现优于现有微调视频生成模型,如基于 DynamiCrafter 与 FreeNoise 的扩散模型。 -
在长程生成任务中,EnerVerse 展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。
-
单视角(one FAV)设定:EnerVerse 在 LIBERO 四类任务中的平均成功率已超过现有方法。 -
多视角(three FAV)设定:进一步提升任务成功率,在每一类任务上均超越当前最佳方法。
(文:机器之心)