李飞飞的初创公司推出首个项目,可通过单张照片生成交互式3D场景
World Labs 推出首个项目:通过单张图片生成互动3D场景的人工智能系统,该技术可以在浏览器中实时渲染并具有可调节的景深效果,有望改变电影、游戏及模拟器制作方式。
微软开源多语言翻译工具Co-op Translator
Co-op Translator 是一个Python包,利用Azure AI服务和先进的大语言模型自动翻译项目中的多语言文本及图像。它简化了技术文档的本地化过程,支持多种语言的技术开发、学习与研究。
李飞飞AI巨制:一张图生成3D世界,玩家可自由探索,沉浸式人机对话Dippy,专为长视频描述而设计的系统StoryTeller
文章介绍了五项创新技术与工具,包括World Labs的3D场景生成、Dippy Empathetic Speech Subnet用于沉浸式对话、StoryTeller针对长视频描述的技术、ComfyUI-KLingAI-API让用户直接使用KLing AI API以及Flow作为轻量级任务引擎简化AI代理构建。
华为正联合中国移动、乐聚机器人开展5.5G场景的机器人应用
华为联合乐聚机器人及中国移动探索5.5G网络应用场景,乐聚夸父搭载华为云‘盘古具身智能大模型’亮相HDC 2024,实现人形机器人小样本泛化操作并开展工业、家庭场景测试。
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
斯坦福大学推出IKEA Video Manuals数据集,通过4D对齐视频和说明书来研究AI理解和执行复杂空间任务的能力。该数据集包含6类36种家具的组装视频、说明书及3D模型,并解决了遮挡、相似部件识别等问题。