李飞飞首个“空间智能”模型发布了

李飞飞教授联合创办的世界实验室发布了首个‘空间智能’模型,该模型结合深度学习与计算机图形学实现了逼真的三维场景生成,覆盖影视制作、游戏开发、建筑设计等多个领域,并提出了潜在风险和解决方案。

李飞飞AI巨制:一张图生成3D世界,玩家可自由探索,沉浸式人机对话Dippy,专为长视频描述而设计的系统StoryTeller

文章介绍了五项创新技术与工具,包括World Labs的3D场景生成、Dippy Empathetic Speech Subnet用于沉浸式对话、StoryTeller针对长视频描述的技术、ComfyUI-KLingAI-API让用户直接使用KLing AI API以及Flow作为轻量级任务引擎简化AI代理构建。

华为正联合中国移动、乐聚机器人开展5.5G场景的机器人应用

华为联合乐聚机器人及中国移动探索5.5G网络应用场景,乐聚夸父搭载华为云‘盘古具身智能大模型’亮相HDC 2024,实现人形机器人小样本泛化操作并开展工业、家庭场景测试。

全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐

斯坦福大学推出IKEA Video Manuals数据集,通过4D对齐视频和说明书来研究AI理解和执行复杂空间任务的能力。该数据集包含6类36种家具的组装视频、说明书及3D模型,并解决了遮挡、相似部件识别等问题。