李飞飞AI巨制:一张图生成3D世界,玩家可自由探索,沉浸式人机对话Dippy,专为长视频描述而设计的系统StoryTeller

文章介绍了五项创新技术与工具,包括World Labs的3D场景生成、Dippy Empathetic Speech Subnet用于沉浸式对话、StoryTeller针对长视频描述的技术、ComfyUI-KLingAI-API让用户直接使用KLing AI API以及Flow作为轻量级任务引擎简化AI代理构建。

华为正联合中国移动、乐聚机器人开展5.5G场景的机器人应用

华为联合乐聚机器人及中国移动探索5.5G网络应用场景,乐聚夸父搭载华为云‘盘古具身智能大模型’亮相HDC 2024,实现人形机器人小样本泛化操作并开展工业、家庭场景测试。

全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐

斯坦福大学推出IKEA Video Manuals数据集,通过4D对齐视频和说明书来研究AI理解和执行复杂空间任务的能力。该数据集包含6类36种家具的组装视频、说明书及3D模型,并解决了遮挡、相似部件识别等问题。