图片来源:斯坦福大学
Z Highlights
-
视觉的进化、眼睛的进化和视觉智能的发展过程与整体智力的进化密切相关,人类个体甚至集体的文明都建立在视觉智能之上。
-
从我个人的角度来看,我学到的一个重要经验,并且希望分享给整个领域的是,数据与算法同样关键。无论我们在深度学习、人工智能,甚至生成式AI领域取得了多少进展,这些都离不开数据。
-
我和我的学生们认识到我们需要用新的思维方式来看待机器学习——不仅仅和算法相关,更重要的是泛化能力(generalization)。
-
如果我们只在平面世界,有很多问题是无法解决的,比如奇怪的伪影、困难的推理以及图像生成会变得奇怪,很难处理遮挡问题,交互方式也有限……我今天要启发大家进行思考的是:三维世界中有更多的东西值得去研究。
-
整个人类的发展过程中,人类每时每刻都在利用感知做事,了解世界,并与世界互动。所以,3D空间智能真正催化了这个感知、学习和行动的良性循环
-
我们希望把AI作为一种工具,来增强人类的能力,而非取代。
以下为李飞飞在NeurIPS上的分享全文。
今天我要和大家分享的演讲主题是视觉智能(Visual Intelligence),标题是“从看到做到——攀登视觉智能的阶梯“。
视觉智能和动物智能二者的演变彼此深深交织
我经常用这个画面开始我的讲座,这是我最喜欢的画面之一。我称这个画面为为“第一道光”,这个画面是这样的——没有任何人类或动物在地球历史上曾经见过的。“第一道光”出现在5.4亿年前,那时海洋中的简单动物在它们的身体头部发展出了第一个感光细胞,第一次窥见外部世界。从那时起,视觉智能的进化就开始了,距今已经超过了五亿年。
但更重要的是,视觉的进化、眼睛的进化和视觉智能的发展过程与整体智力的进化密切相关。如果没有视觉和感知的能力,我们今天不会站在这里,也不会成为宇宙中最复杂的动物之一。事实上,人类的发展在很久以前就开始于看到和感知世界,而远远早于我们能够发出第一个词汇。婴儿在出生几小时后就会具备手眼协调的能力,能够初步感知这个世界。在我们人类发展的整体过程中,视觉和知觉始终是我们生活的核心,我们通过视觉和知觉来做事、学习以及与世界互动。
不仅人类个体依赖视觉智能来理解和感知世界,人类集体的文明也是建立在视觉智能之上的。人类文明的发展中有许多重要的里程碑,我挑选出一些最值得纪念的,从古代帝国的建设到第一次工业革命的初现,再到现代城市的设计与建设;从DNA结构的科学发现,到艺术和摄影的杰作,再到我们现在正在构建的机器世界,所有这些都需要人类运用视觉智能以及大脑的其他部分的能力。
我的视觉智能研究历程
过去三十年中,我非常热衷的一个问题是如何构建具有视觉智能的机器,我想从历史开始,讲讲过去、现在和未来,讲讲走过的漫漫长路。
对我个人而言,这段历史始于我还是研究生时,我和一位领域中资深的教授讨论机器视觉是什么。在2000年初,我们对机器视觉知之甚少,几乎不知道如何构建具备视觉智能的机器。那位教授给我看了他孩子儿童书中的一页,这一页画着三只熊猫聚在一起。然后教授对我说:“飞飞,视觉智能就是看到这些线条并理解它们的意义,理解这些是熊猫,理解它们在做什么,理解背后的故事。”对我来说,实际上是第一次对视觉智能有了初步的认识。我们在理解视觉,在构建一个具有视觉智能的机器时,首先需要做的是理解这个世界,是基于视觉像素为语义内容或感知属性打上标签,例如物体识别、分割、视频分类、人体姿态等。这些都是人类视觉理解的各个方面,我们可以深入探讨其中的许多内容。
其中一个问题是:我们应该从什么问题开始,才能推进视觉理解?当涉及到理解时,如何解锁计算机的视觉智能?这正是我的计算机视觉之旅的起点。我们抓住的第一个、最重要的“北极星问题(North Star problem)”就是物体识别。为什么呢?现在来看,做出这个选择很简单,因为我们看到了许多令人惊叹的进展,但不能忘记的是,大约25年前没有人知道什么才是“北极星问题(North Star problem)”,那个时候我们从人类认知科学和神经科学中寻找灵感。
在世纪之交,神经科学家和神经生理学家开始告诉我们,人类天生具备快速识别物体和进行分类的能力,大脑中也有专门的神经区域可以识别面孔和地点等事物。所以,机器视觉的起步,便是创建能够进行物体识别的算法,你们中的许多人那时还没有出生。但在早期探索阶段,机器学习就成为了计算机视觉和视觉智能领域最重要的工具之一。如果回到20年前,在2004年的NeurIPS会议上,你看到的论文都是核方法、贝叶斯方法、条件随机场、提升方法、词袋模型和潜在的随机过程等。很多类似的研究在当时的NeurIPS上进行展示,坦白讲,这些都只是实验,没有实质性突破。而且,我们当时所做的研究问题与真正的视觉智能相比简直是小儿科。
在我的研究历程中,教授Irving Biederman是我的一位英雄。我称此为Biederman Number。Irving Biederman是位心理学家,他在1983年曾推测,人类在6岁时就能识别上万种物体类别,这个数字令我震惊,它比当时的任何数据集所处理的类别还要多。在机器学习和机器视觉的世界里,我们正在处理的是包含几十个物体类别,有着数千或数万个数据的数据库。所以,我和我的学生们认识到需要用新的思维方式来看待机器学习——不仅仅和算法相关,更重要的是泛化能(generalization)。泛化能力实际上是模型的容量和模型所使用数据的结合,它不仅取决于数据的数量,更关键的是数据的多样性,只有多样化的数据才能训练出能够适应不同情境和任务的模型,这也是提高机器学习和机器视觉技术突破现有限制的关键。
这是2009年与我的学生Jia Dan和Olga Rusokovsky等人共同推出的项目所呈现的图像。这个项目的核心任务是重新启动一种经典的算法——神经网络。大家都知道,2012年,Geoffrey Hinton教授和他的学生们发布了Alex Net,并赢得了ImageNet挑战赛的物体识别和分类比赛。许多人认为,这标志着深度学习革命的开始。从我个人的角度来看,我学到的一个重要经验,并且希望分享给整个领域的是,数据与算法同样关键。无论我们在深度学习、人工智能,甚至生成式AI领域取得了多少进展,这些都离不开数据。
从机器视觉的角度来看,数据,尤其是ImageNet挑战赛,真正打开了重要发现的洪流。这里展示的只是一些ImageNet挑战赛历年来的获奖者或具有重要意义的研究。尽管我正在回顾机器视觉的历史,但我们也必须暂停片刻来认识到科学的进步是多种力量汇聚的结果。就在ImageNet开展的同时,神经网络、深度学习重新焕发了生机,GPU制造商英伟达也在这一时期崭露头角。于是,这三个元素——神经网络、GPU和大数据,成为了现代AI革命的基石。许多人将2012年,卷积神经网络赢得ImageNet挑战赛的那一年,也是现代AI的诞生之年。但这是题外话。
视觉智能的飞跃:理解–推理–生成
理解:Understanding
让我们继续探讨视觉理解的这一课题。在机器学习中,我们学到的最重要的事情之一就是“表示”(representation)。
事实证明,要解决视觉理解中的一些重要问题,无论是ImageNet挑战赛中的物体识别,还是COCO数据集中的物体检测,或者其他许多重要问题,如分割,我们都需要很好地学习“表示”。
在这里,我要特别感谢Kaiming He及其同事的一项工作,他们从ResNet开始,赢得了2015年ImageNet挑战赛,并受到自然语言处理(NLP)领域Transformer和BERT工作的启发。这项工作将ResNet和BERT引入了自监督学习框架——掩码自动编码器(Masked Autoencoders,MAE)进行表示学习。这项技术通过对图像进行最佳块的掩码处理,尝试以自监督的方式学习图像的基本表示。进行自监督学习能更好地泛化视觉理解任务,比如物体识别或检测。
我的学生最近将这一思路进一步拓展。他没有局限于静态图像,而是将其扩展到视频中。在这种情况下,他采用了一种不对称的方式来编码按时间顺序排列的成对帧,先提取第一帧的所有图像块,再对后续帧中的图像块进行遮蔽处理,通过视觉Transformer自监督学习框架来学习时空视频的表示。研究结果表明,Siamese MAE表示方法在多个视觉理解任务上具有更好的泛化能力,包括图像重建、语义分割和关键点检测等。
虽然我们实验室正在进行视觉理解方面的研究,但在视觉理解领域,许多其他令人兴奋的研究也在不断涌现,比如细粒度物体识别、姿态估计、实例分割、活动识别等。我并不是要全面列举所有,但我想要强调的是,这一切还远远不够,还让人感到深深的不满足。
推理:Reasoning
视觉理解和视觉推理的许多方面远远超出了我们从像素中所看到的内容。例如,物体之间的关系在我们理解视觉世界时至关重要,物体的持久性理解也是如此。婴儿有一种能力,那就是即使物体从屏幕上消失,他们仍然能够记住物体曾存在过。这意味着,视觉理解不仅仅关乎像素本身,还有更多因素和深层次的认知在其中。
这就是我所说的视觉智能推理的下一步——能够推理或推断出超越可见像素的信息,例如物体之间的关系。这两张图片展示了相同的物体,但它们的关系截然不同。这项研究来自我以前的学生Ranjie Krishna,他也在场。我们运用图表示法来解决这个问题。这种表示图像中实体之间关系的方法,不仅可以帮助我们推断常见的关系,例如“人坐在椅子上”,它还可以帮助我们进行零样本学习(Zero-shot learning),比如“人坐在消防栓上”。
数据在这里再次发挥了至关重要的作用。Ranjie和我们的合作伙伴共同构建了一个重要的数据集——Visual Genome,这个数据集包含了数百万的图像、物体标注、关系、描述以及问题和答案。跟随Visual Genome而来的成果之一是视觉问答(Visual QA),例如7WQA数据集,它是Visual Genome的一部分。我们在这个数据集中整理了7个W的问题:什么、哪里、什么时候、为什么、谁、如何以及哪个。这个数据集由我以前的学生Yu Kezhu于2016年完成,是视觉问答领域的早期研究之一。后来,我的另一位学生Alan Lu在两年前的NeurIPS上,将这项研究扩展到了对动态物体关系和对多物体、多行为者活动的理解与推理。
当然,推理的终极标志之一是能够从场景中讲述一个故事。这项工作最早由我以前的学生Andre Kapathy发起,后来由Justin Johnson和John Krause接棒,他们是最早利用早期的LSTM和CNN模型进行图像标注、密集标注甚至段落标注的一批研究人员,这是20多年来首次看到计算机能够开始模仿人类的能力,讲述图像的故事。但我不知道有多少人看过Andre几年前的推文,在我们完成图像描述工作后,我曾半开玩笑地对Andre说,反过来,把这个句子转化为像素。Andre非常聪明地拒绝了我,理由是他需要毕业。但令人难以置信的是,这个想法在几年后得到了实现。
生成:Generating
在图像生成之前,我的前学生Justin Johnson是最早展示视觉风格迁移的人之一,他完成了实时视觉风格迁移的开创性研究。之后,他和Agram进一步将其应用到视频的风格迁移中。我非常喜欢这项成果。然而,真正发生的变化是机器学习领域的一些开创性成果,其中之一就是今年获得Test of Time Award的生成对抗网络(GAN)和变分自编码器(VAE),这两项研究展示出生成像素的可能性。因此,Justin和Agram是机器视觉领域最早将自然语言输入与算法结合,生成像素的团队之一。
当时,我们在自然语言处理方面还做得不够好,所以我们需要将一个句子翻译成语法图结构,并使用算法将这个语法图转换为薄布局,然后使用相同的布局和卷积神经网络(CNN)将其转换成像素。这是当时前沿的工作,但生成的像素由于分辨率非常低而显得模糊不清,即便如此,当我为这次演讲翻出这些幻灯片时,我也深深感慨机器视觉和机器学习的历史。六年前,我们在机器视觉领域就能生成一些非常初步的自然场景像素。
但是很快,扩散模型(Diffusion Model)的出现改变了这一切,基于Transformer的扩散模型出现后,机器视觉领域迎来了一个新的时代。我无法列举出所有的贡献者,我只讲讲自己实验室由Agram Gupta带领的一项研究,是最近在ECCV上发布的一个名为Walt的视频生成模型,它能够同时接收图像和视频并编码这些信息,经过扩散网络处理。关键在于,在Sora的首次发布(2023年1月)前的几个月,我们就能使用更少的GPU完成视频生成工作,这是一个不可思议的成就。从Andres的论文到Agram的论文,从理解到推理,再到生成,机器视觉在这几年里取得了巨大的飞跃。
正如你所看到的,随着这些进展的积累,我们开始看到视觉智能的关键任务或“北极星”能力——理解、推理和生成。这些能力只有在数据驱动算法的情况下才能实现。
三维感知和互动将是未来人工智能发展的关键
我要把视觉智能的关键任务放在一个阶梯上,但我知道没有什么是完全线性的,但是,通过这个阶梯我们可以看到机器智能在视觉领域的进展,从理解到推理再到生成,这一过程得到了数据和算法的支持。但是,这就是全部故事吗?完全不是。
这是一个非常有趣的地方,从感知到语言之间存在着根本性的不同。语言本质上是生成性的,自然界中并没有一个物理实体叫做“语言”,它是我们大脑运作的方式,而世界则是物理性存在的。实际上,这种关于世界是物理存在的生态学观念非常重要。伟大的心理学家James J. Gibson曾经说过:“问问自己脑中有什么,而不是脑外有什么。”我最喜欢的现代哲学书籍之一是Andy Clark所著的《超越心智》(Supersizing the Mind)。我想在这里引用他的一句话:“如果我们的思维本身可以包含我们社会和物理环境的各个方面,那么我们创造的社会和物理环境就能重新配置我们的思维和推理能力。”
无论是James J. Gibson还是Andy Clark,心理学家和哲学家都告诉我们智能中有一些东西是更深层次的。我们的智能,尤其是视觉智能,依赖于我们所呈现的世界,依赖于我们与世界的互动。我想特别提到一个长期以来与机器视觉和机器学习有所分离的领域——图形学(graphics)。过去几十年,图形学领域的许多人一直在研究与世界互动的概念。到目前为止,我展示的一切都是与一个平面世界的互动,都是二维的。这些图像、这些视频都是平面的,同样也适用于语言。即便现在最强大的大语言模型(LLMs),它们的世界也只是文档,尽管你可以添加更多的信号、多模态信号,但它依然是平面世界加上文档。从根本上说,我目前讨论的所有内容,都是一个平面世界。你可能会想,为什么她要谈这个问题?我们如此强大,能看到如此多的东西,在这个平面世界中做得这么好,似乎不需要担心这些问题。其实,这并不是真的。
如果我们只在平面世界,有很多问题是无法解决的,比如奇怪的伪影、困难的推理以及图像生成会变得奇怪,很难处理遮挡问题,交互方式也有限。让我来展示一个例子。我们拍了一些某酒窖的照片,并对这个空间进行了重建,是一个三维模型,一种数字展示。然后,我们将一个虚拟的球体插入到这个世界中,它非常直观,球体实际上能够遵循物理规则在这个三维世界中移动。但如果你将同样的虚拟球体放入二维视频或二维图像中,球体就无法移动了。这就是三维世界和二维世界之间的显著区别。尽管二维世界中有很多研究可以做,但从根本上说,我今天要启发大家进行思考的是:三维世界中有更多的东西值得去研究。所以,让我再回到开头提到的那只熊猫。
我在之前分享到我研究生涯的开始是受到儿童书页的启发,但我没有告诉你是谁启发了我。这个人是我最喜欢的视觉科学家之一,麻省理工学院的教授Ted Adelson。他是启发我思考视觉智能的人。虽然这对我来说一个重要的故事,但Ted并不是以这个故事而闻名,Ted在视觉科学领域最著名的工作之一是著名的“棋盘错觉”。你们中有多少人见过这个?如果你没有看过这个,你看到方块A和B会认为它们的灰度完全不同,对吧?你很难相信它们是相同的灰度,但如果你遮住大部分的场景,你会突然意识到这两个方块的灰度实际上是一样的。这就是著名的Ted Adelson错觉。
那么这个错觉告诉我们什么呢?有很多种解释方式。对我来说,它讲述了三维进化的故事。地球并非平坦,圆柱体有体积,光源存在于某个空间,阴影被投射出来。所有这些都让我们以为非常理解三维世界,以至于会产生错觉。
柏拉图在两千多年前就已经知道了这一点,并用洞穴比喻告诉了我们:视觉是什么。他说,人的视觉就像下面这种情况:想象一群被绑在椅子上的囚犯,面对着一面平坦的墙。在他们背后正在上演戏剧,这些囚犯唯一能做的,就是盯着通过光照投射到平坦的墙上的二维画面,推测戏剧的内容。这就是视觉的问题所在。
空间智能
所以今天我想重点讨论的一个主题是,自然界是三维的。不仅我们的物理世界是三维的,我们的数字世界也正在变得越来越三维,无论是谈论内容创作、游戏、增强现实(AR)和虚拟现实(VR),还是谈论机器人技术,所有这些都在变得越来越三维。因此,对我来说需要攀爬的新的阶梯是三维阶梯,我称之为空间智能。
那么让我们来看看在三维的视觉智能阶梯上的相关研究。首先从理解和推理开始。我提到过Visual Genome,它是关于二维推理的。但我们应该认识到,早在70年代,AI领域就有先驱者在进行三维推理,或者至少指出了需要进行三维推理。如Terry Winograd的SHRDLU研究开创性地关注到三维几何形状,并要求计算机程序进行推理。当然,那时没有深度学习,也没有神经网络,至少在他的研究中没有使用。因此,这项研究并没有取得预期效果。
我之前的学生Justin,在他的论文中做了机器视觉的第一个三维推理数据集,叫做Clever。他使用了Clever和一些早期的深度学习算法来推理关于物体的三维关系。我现在的学 Kashik的研究展示了视频基准测试,专门设计用来评估大语言模型(LLMs)在理解和推理三维长视频方面的能力,这个项目采用了Eagle 4D数据集和数百小时的视频,并设计了高质量的多项选择问卷,涵盖了77个日常场景和18种不同的任务,比如感知和跟踪任务;识别镜头中独特的个体;导航和三维推理任务,比如“相机如何从厨房到达后院”。重点是今天的语言模型,比如Gemini和GPT-4等等,与人类相比表现得并不好。目前的模型和人类专家相比差距非常大,人类专家的表现可以超出80%,所以在三维推理、时空推理等方面,还有很多的研究需要开展。
现在让我们谈谈生成,过去几年里,我看到的机器视觉革命之一就是重建与生成的结合,许多在座的观众都为这一令人难以置信的工作做出了贡献。经典的机器视觉任务中,三维重建是通过拍摄一张或多张图片来重建三维结构。你们可能见过像“Building Room in one day”这样的经典作品。但最近得益于伯克利团队的研究,包括Ben Mildonhao,我们开始看到与扩散模型结合的重建的一些具有开创性的研究,如Google的Dream Fusion和 Zero-1-to-3,正是将重建与生成结合起来,成为了创建三维物体和三维场景的强大工具。
我的学生与Jiajun Wu、Kyle Sargent和Google的合作伙伴一起,将Zero-1-to-3的工作更进一步,创建了ZeroNVS项目。这个项目是具备360度视角,能从单张图像中生成三维视图,已于今年在CVPR上发表。基本思路是训练一个相机扩散模型作为三维表示的监督,借鉴了Dream Fusion的工作成果。研究结果是,给定一个物体或场景的单张图像,我们能够重建整个三维场景或完整的基于360度视角的物体。
我的学生Tianze Xiang采用了类似的方法,但将其应用于动态人体重建。他使用基于NERF的方法来重建动态的人体动作,甚至在遮挡情况下也能重建。这项研究已在去年的ICCV上发表,并且与一项名为Human NERF的开创性研究进行比较,在定量和定性评估上都表现得更好。例如,在这个视频中,人体被遮挡,但我们的算法能够重建完整的人体。这就是我们实验室的一些研究。
交互:空间智能催化了人类感知、学习和行动的良性循环
在这个3D视觉智能的阶梯上向上攀升,但我想停下来强调,当我们考虑3D世界时,还有更令人兴奋的地方,那就是交互。因为从根本上来说,为什么进化会创造感知呢?我的推测是,进化创造感知,并不是为了让我们或动物坐在那里数它们看到的猫有多少只,而是为了让动物和智能体能够移动并做事。整个人类的发展过程中,人类每时每刻都在利用感知做事,了解世界,并与世界互动。所以,3D空间智能真正催化了这个感知、学习和行动的良性循环。
当我们想到“做事情”,我们会想到机器人。当我们想到机器人能够做家务,如果你是一个研究生,你希望机器人为你做晚餐、早餐,洗衣服,甚至为你写论文。但现在的机器人还没有达到那个水平,机器人仍然相当脆弱,在任何有机环境中,它们往往不具备很好的泛化能力。一部分原因在于现在很多机器人研究仍然集中在简单的环境和任务上,实验往往是由实验室分别精心挑选的,缺乏标准和基准度量。而现实世界是生态复杂的、动态的、大规模的、具有变异性和互动性的,还需要多任务处理。我们应该从视觉和多模态学习中学到一些东西。
我在深度学习的十年历程中学到的一件事是数据的重要性及数据的多样性。所以我想重点介绍一下我的实验室在机器人学习方面的多项数据驱动的研究。
我将从一个叫做“Behavior is a new North Star for robotic learning and embody AI”(后续作者简称为Behavior)的项目开始。这是一个面向日常家务的基准测试,旨在虚拟互动和生态环境中进行。这个名字有点复杂,很多学生为Behavior项目做出了贡献。
目前,Behavior项目包含了1000个日常任务,涵盖了人们日常做的事情。这个模拟环境使用了超过10,000个物体资产和50个现实世界的场景,以及一个强大的模拟器。场景包括餐馆、办公室、公寓、学校和杂货店。这些10,000个物体资产包括每个物体的30多个属性,例如关节、变形性等。当你把这50个场景、10,000个物体和30个属性相乘时,我们就能实例化出无限数量的环境和合成环境,供机器人进行训练。我们与Nvidia Omniverse团队合作,创建了一个名为Onnie Gibson的模拟器,旨在提供物理现实感和感知现实感。当然,我们也希望能够进行一些真实的实验。至少,这是我们在斯坦福大学的院系实验室进行的早期工作,我们的移动操控机器人正在尝试执行Behavior环境中训练的日常任务。总之,Behavior项目有一个高度复杂的环境,能模拟现实生活中的事物和对象,允许各种机器人学习这些任务,我真心希望从事机器人学习的朋友们能够关注这项研究。Behavior项目主要关注物理本质,实际上更多地关注视觉场景,而现实世界是多模态的。
这是我之前与Jiajun Wu、Rohan Gao等人共同开展的工作,我们称之为Object Folder。我们创建了一个多感官物体数据集,选择了1000个物体,并通过一个控制光源的光箱以及3D扫描仪器收集了这些物体的视觉数据,还通过声学隔离箱收集了声学数据,使用冲击锤和麦克风记录这些物体在不同触点上的撞击声,以及使用机器人臂和胶体传感器收集的触觉数据,这个前沿研究也在由Ted Adelson教授和他的团队以及RealSense camera共同开展。研究成果是我们得到了一个包含多感官物体及其神经表示的数据集,所有人都可以用来学习物体的多模态特性。
不仅模拟环境和多模态很重要,现实世界呢?我们必须将机器人学习从模拟环境转化到现实世界中。所以,我对“数字表亲”(Digital Cousin)这一研究非常感兴趣。这项成果几周前由我的学生Tian Yuan Dai和Josiah Wang在CHI上展示。现实到模拟的迁移是非常困难的,通常通过数字孪生(Digital Twin)来实现。无论如何,我们需要的是将现实世界提升成更精确的数字副本。我们就想到这个词——“数字表亲”(Digital Cousin)。数字表亲并不是现实世界的数字副本,而是力求保留相似的几何形状和语义能力。与数字孪生相比,数字表亲(Digital Cousin)的成本更低、更具可扩展性、减少了人工干预,在推动机器人学习的下游策略学习方面具有更好的鲁棒性。你可以做的是,简单地拍一张场景的照片,然后通过像Behavior项目这样的模拟环境查询一大批数字表亲(Digital Cousin),再利用这些数据来学习下游策略。与数字孪生学习相比,数字表亲能更好地进行泛化学习,因为它在学习物体时不那么精确。这里是一个现实世界实验,展示了我们能够做到零样本迁移。
这些都是早期的工作,环境仍然非常简单。到目前为止,我们讨论了关于环境的数据、物体的数据,但机器人如何学习移动手指的动作呢?这是我想谈的第四个研究——DexCap,由我的学生Cheng Wang和Karen Liu等带领。在DexCap项目中并没有使用笨重的动作捕捉室,而是要求实验对象戴上动作手套,由此提供更精确的手指运动数据。
Cheng在真实世界中执行任务并收集手指的高分辨率运动数据,他将这些数据用于知识转移,并训练机器人臂进行非常复杂的任务,例如奉茶等,这个动作需要用特制的勺子来取出真实的茶叶。
到目前为止,我们讨论了很多不同的方法来收集数据或创建模拟环境以推动机器人学习,但这些方法似乎仍然不够。与图像和自然语言不同,机器人数据更为困难。
那么,我们能否通过大语言模型(LLMs)和视觉语言模型(VLMs)将这些人类的知识转化为稳健的策略学习呢?这正是Wenlong Huang在尝试做的。他使用大语言模型帮助机器人创建一个情境图,不仅能识别抽屉的位置,还能告诉机器人如何避开花瓶,这就是他的实验结果。他在20多项操作任务上进行了测试,也没有进行额外的训练,只是通过LLMs和VLMs传递了现有的知识。
不仅如此,我们迄今所看到的,主要是空间合成以及利用这些来教机器人执行任务。那么,关于时间序列呢?是否有什么我们可以做的呢?这是研究的后续,名为“Recap”,在这项工作中,我们不仅使用LLMs和MLMs来识别物体,还识别关键点并将任务序列化,以便我们能够训练得到一个最优策略来指导机器人如何实现最佳规划。这里展示了一个双臂机器人,识别了早餐服务场景和关键点,并学习如何优化这些关键点的时空规划,最终完成任务。在这个案例中,我们展示了大约16个不同的多阶段任务。
AI应被看作是增强人类能力的工具
到此,我与大家分享了我们实验室3D空间智能的研究和成果,不仅是解决视觉智能中的一些问题,也解决了机器人学习和赋能AI中的相关问题。我所分享的内容,在于与NeurIPS社区的大家充分交流,我们都热爱AI,热爱机器学习,我们对这些工作毫不怀疑。但我其实想稍微拉远一点视角,特别是针对学生们,因为AI已经不再局限在学术领域。这是一个学术会议,但我走遍世界,听到很多从来没参加过NeurIPS、从未写过一行代码的人,他们看着新闻、播客、社交媒体上的AI,问我“那又怎么样?”
我们做这些研究–“那又怎么样”?
我们解锁了图像识别–“那又怎么样”?
我们在尝试通过行为模型来解锁机器人学习–“那又怎么样”?
我们能生成3D的东西–“那又怎么样”?
在“那又怎么样”这个问题上,最重要的问题是这些不是NeurIPS社区成员的人。如果你看一下关于AI的新闻,你会看到很多关于AI对人类社会,尤其是对人类劳动力的威胁,特别是关于机器人取代工作和生计的新闻,而这些新闻让人感到非常震惊。
机器人能取代多少工作?在这里,关于AI的关键词变成了“取代”。AI将取代人类。但我想在这里告诉大家,作为一名AI科学家,我相信有一个比“取代”更好的动词。实际上,我们应该用“增强”来代替“取代”。我们希望把AI作为一种工具,来增强人类的能力,我想快速给大家展示三个例子,分别是AI如何增强医疗工作者、AI如何增强患者体验,以及AI如何增强创作者的能力。
在医疗领域,我们面临着劳动力短缺问题,也有许多医疗的盲点。无论是在手术室、病房、养老院,还是药品药房,我们没有足够的眼睛和双手、足够的人力来帮助我们的患者。在我和斯坦福的同事们进行的一系列研究中,我们在医院以及日常生活空间中安装了许多机器视觉传感器。开展的思路是利用AI和视觉智能来照亮医疗领域的盲区,比如确保我们的护士和医生能够很好地执行卫生操作,从而确保患者的安全。此外,院内感染每年在美国导致的死亡人数是车祸的三倍。因此,我们使用这些传感器来帮助医生和护士了解他们的卫生行为,而这种机器视觉智能算法比人工观察者效果更好,因为它们不会疲劳,可以全天候工作。我们还将这些传感器安装在ICU病房。结果发现,ICU中的患者需要以非常谨慎的方式进行移动。我的前学生Serena Young在ICU领域开展了多项开创性工作,帮助医生和护士记录和监测患者在ICU环境中的移动方式。ICU是医院中最危险的环境,因此患者能否得到正确的帮助至关重要。同样重要的是老年人的健康状况,我们可以利用视觉智能来评估老年人独立生活的情况,无论是早期感染的检测、活动能力变化、睡眠障碍还是饮食问题,这些都可以通过AI的帮助得到辅助。
在这项研究中,我们也使用AI来帮助瘫痪患者。我们已经讨论了许多人类任务和人类数据。那么,关于人与人之间的交流呢?关于那些不能自理的最虚弱的患者呢?他们由于瘫痪而无法自己做任何事情,如何与他们互动呢?在这项由Jiajun和我的博士后Rohan Gao带领的研究中,我们要求患者或实验对象佩戴非侵入性的脑电图(EEG)帽,记录他们的脑电信号,并利用这些脑电信号指挥机器人执行任务。这其中涉及很多机器学习的细节,基本上需要解码脑电信号并将其转化为机器人的动作策略。但这是一种安全、非侵入性且在时间域上具有高分辨率的技术。这里有一个示例,是一位实验对象通过脑电波指挥机器人做日本料理。整个视频的录制过程完全依赖脑电波控制,没有任何人手动操作机器人。我们已经在实验室中完成了20个具有挑战性的长期任务,涉及日常生活的各类活动。虽然我们还有很长的路要走,但这已经为未来描画了一个非常激动人心的展望。
最后,AI也能增强创作者的能力。我们看到了很多生成艺术、生成图像、生成视频。人类的创造力是宝贵的,是我们行动力的一部分,而我们可以做的就是为创作者提供更强大的工具。这是我最近在World Lab的同事们所做的工作。
最后让我总结一下。我刚才做了一个相当简短的总结,回顾了从我的角度来看计算机视觉的历史,特别是我们如何通过关注数据和算法,超越视觉智能的阶梯,从理解、推理到生成。我们已经看到了很多成果,特别是从2D到3D的转变,但仍有许多研究要去完成。我自己仍在思考和感兴趣的问题是,从数据,3D和4D数据的模拟,到生成问题,尤其是对于机器人学中的可控性、一致性和生成问题。
一些推理问题,我的部分合作者在思考作为时空推理的空间理论是什么。我们也知道,即使是理解和识别,在视觉智能领域也并非已解决的问题。在MLLMs(多模态大语言模型)方面也有令人兴奋的研究,当然还有表示学习、实时扩散、长期视野的策略学习、实时影响优化等等一长串的研究方向。
但最重要的是,AI的到来是为了增强人类的能力。我们已经看到在医疗、机器人以及生成AI中的三个例子证明AI能够帮助不同的人群。AI用于医疗、AI用于教育、AI用于能源等领域有着无限的可能性。我真的鼓励这一代的学生去关注AI与社会中许多有影响力的领域之间的交集。
最后,感谢大家!
Q&A
Q:你认为未来数据会怎样?我们总是会沿着数据的规模法则不断扩展吗?
A:这是一个很好的问题。我们与数据的关系会发生变化。数据还有很多潜力可以挖掘。在3D视觉、机器人等领域,我们仍然远未触及数据的表面,我们有更多的机会去利用它。但与此同时,我们的发展历程表明,我们并没有像今天的大型模型那样大量吸收数据,所以数据关系将会发生变化。如何变化是一个非常值得深思的问题。
Q:根据你分享中“视觉智能对人类智能至关重要”的观点。我们可以从盲人身上学到什么?是否有某些人类智能的增强方式,我们也可以将其应用于人工智能?
A:所以其中一个非常关键的认识是,人工智能和人类智能并不相同。我们确实有一些视力受损的个体非常有本领,这在很大程度上说明了我们大脑的神经可塑性。许多研究表明,当一个人视力受损或失明时,无论是天生的还是后天因为事故或疾病造成的,都会出现神经可塑性,从而重新连接或重新赋予大脑不同部分的功能。这是人工智能算法中尚未充分探索的领域。
Q:AI通常依赖于同时模拟数千个场景。是否有可能制作足够准确的机器人模拟器,还是我们需要更高效的数据训练方法来使用现实世界的数据?
A:这是个很棒的问题。实际上,我在这次演讲的后半部分提到了一些相关的工作。我们确实需要机器人模拟器。我也认为现在看到不同方法的应用非常有趣。我个人认为,3D表示非常重要,且在未来一段时间内会非常重要。所以我们看看这条路会如何发展吧。
资料来源:https://neurips.cc/
编译:Elaine Wang
(文:Z Potentials)