李飞飞首个“空间智能”模型发布了
李飞飞教授联合创办的世界实验室发布了首个‘空间智能’模型,该模型结合深度学习与计算机图形学实现了逼真的三维场景生成,覆盖影视制作、游戏开发、建筑设计等多个领域,并提出了潜在风险和解决方案。
李飞飞教授联合创办的世界实验室发布了首个‘空间智能’模型,该模型结合深度学习与计算机图形学实现了逼真的三维场景生成,覆盖影视制作、游戏开发、建筑设计等多个领域,并提出了潜在风险和解决方案。
World Labs 推出首个项目:通过单张图片生成互动3D场景的人工智能系统,该技术可以在浏览器中实时渲染并具有可调节的景深效果,有望改变电影、游戏及模拟器制作方式。
Co-op Translator 是一个Python包,利用Azure AI服务和先进的大语言模型自动翻译项目中的多语言文本及图像。它简化了技术文档的本地化过程,支持多种语言的技术开发、学习与研究。
文章介绍了五项创新技术与工具,包括World Labs的3D场景生成、Dippy Empathetic Speech Subnet用于沉浸式对话、StoryTeller针对长视频描述的技术、ComfyUI-KLingAI-API让用户直接使用KLing AI API以及Flow作为轻量级任务引擎简化AI代理构建。
华为联合乐聚机器人及中国移动探索5.5G网络应用场景,乐聚夸父搭载华为云‘盘古具身智能大模型’亮相HDC 2024,实现人形机器人小样本泛化操作并开展工业、家庭场景测试。
斯坦福大学推出IKEA Video Manuals数据集,通过4D对齐视频和说明书来研究AI理解和执行复杂空间任务的能力。该数据集包含6类36种家具的组装视频、说明书及3D模型,并解决了遮挡、相似部件识别等问题。