空间智能
AGENT AI:多模态交互系统的全面框架
论文探讨了Agent AI的全面框架,定义其为能够感知视觉和语言输入并产生具身行为的交互式系统。该框架强调跨现实性、多模态方式以及认知能力,未来可应用于虚拟现实和各类软件产品中。
年度特刊|李飞飞的2024年
李飞飞教授在2024年创立了World Labs公司,并发布了首个基于图像生成3D场景的AI系统。同年,她担任斯坦福大学计算机科学教授、HAI研究院院长,并发表了多场关于空间智能的重要演讲和论文。
李飞飞:World Labs这样实现「空间智能」
斯坦福大学教授李飞飞在人工智能顶会NeurIPS上分享了她的研究,她创立的世界实验室致力于生成3D场景并具备空间智能。她认为机器视觉正朝着全面智能迈出关键一步。
「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D
国内智源研究院推出首个利用大规模无标注互联网视频学习的3D生成模型See3D,支持从文本、单视图和稀疏视图到3D的生成。
看3.2亿帧视频学会3D生成,智源开源See3D:只需单图即可生成3D场景
国内智源研究院推出首个利用大规模无标注互联网视频学习的3D生成模型See3D,支持从文本、单视图和稀疏视图到3D的生成,并进行3D编辑与渲染。
刚刚,李飞飞创业首个项目引围观:单图生成交互3D场景,空间智能来了
斯坦福教授李飞飞发布首个项目World Labs,能用单张图片、一句话生成3D世界。该技术可提高内容控制力和一致性,改变电影、游戏等制作方式。