能空翻≠能干活!我们离通用机器人还有多远? | 万有引力

作者 | 新程序员编辑部
出品 | CSDN(ID:CSDNnews)

具身智能,作为近年来人工智能领域的热点之一,成为产业界和学术界重点关注的方向。特别是在人形机器人这个载体上,它所承载的感知、运动、决策等能力,让具身智能从概念逐渐走向落地。但与此同时,也有不少值得深入探讨的问题浮出水面:为什么具身智能的发展似乎格外偏爱“人形”?是否只有模仿人类形态,才是实现智能的最佳路径?在面对数据、算力、模型架构等现实挑战时,我们究竟处于怎样的阶段?距离真正的通用机器人,还有多少“里程”要走?

基于此,CSDN《万有引力》栏目特别策划了一期以“十问具身智能:我们离通用机器人还有多远?”为主题的深度对话,邀请了北京邮电大学人工智能学院副教授陈光@爱可可-爱生活、深圳市人工智能与机器人研究院副研究员夏轩、Roboraction.AI 首席执行官黄浴,在栏目主理人 CSDN &《新程序员》执行总编唐小引主持下,三位专家将从技术演进、研究现状、产业应用等多个角度切入,带大家一同拆解具身智能面临的“关键问题”,看清这条通往未来机器人的发展路径。


闯进具身智能赛道的技术人们


唐小引业内普遍认为,2025 年很可能成为具身智能的“元年”。尽管目前对于百模大战的最终结果尚无定论,但时下行业竞争明显主要在多模态和具身智能领域展开。在英伟达 GTC 大会上,黄仁勋曾高调宣布“通用机器人时代已经到来”。同时,他还提出了 AI 发展的四个阶段:第一个阶段是“感知 AI”,它始于 2012 年的 AlexNet 深度学习模型,并于今年开源了原始代码;第二阶段是“生成式 AI”,以 ChatGPT 为代表,标志着 AI 从识别走向生成;第三阶段,便是今年正在兴起的“自主智能体AI”(Agentic AI),强调推理能力与自主行动;而第四阶段,也就是“物理 AI”时代,则关注 AI 如何真正理解物理世界并进行交互。这一思路或许能帮助我们更清晰地看懂 AI 的进化路线。

与此呼应的是,图灵奖得主杨立昆也表达了类似看法:相比大语言模型,他如今更关注机器如何理解物理世界,并进行持续记忆和推理。

正因如此,我们特别邀请了三位在具身智能领域拥有丰富经验的老师,与我们共同探讨我们距离通用机器人还有多远,请大家从“程序人生”的角度出发,分享是怎么一步步走进具身智能这片领域的?

陈光自 2000 年读研开始,我就一直在做相关方向的研究。那时候,我们主要做的是手写汉字识别,我跟随郭军老师(北京邮电大学人工智能学院教授,北京邮电大学原副校长)从事模式识别的研究。随着大数据和机器学习的发展,我们研究重心也逐渐转向更广义的人工智能领域。

近两年,虽然“具身智能”这个概念并不新鲜,但它重新引起了大家的关注。人们不再只是关注机器人在自动驾驶等垂直场景的应用,而是开始更系统地思考“智能”如何真正通过“身体”体现出来。 

这股热度的回升,其实也离不开大模型的带动。随着 AI 模型能力的大幅提升,机器人研究也逐渐从传统的精密控制、精准性、鲁棒性等方向,向更智能化、更通用的方向迈进。

从最初的识别与预测,到问答系统,再到后来的大模型,甚至最近关于均值计算的研究,我们也都有所跟进。尽管我并不是专门从事具身智能研究的专家,但我一直密切关注这一领域的发展脉络,也对它的未来充满期待。

夏轩:在专业背景方面,我早期的研究主要集中于计算机视觉领域(CV),涵盖无人机图像处理、工业图像处理以及生成模型等方向。在扩散模型兴起之前,我也曾深入参与生成对抗网络(GAN)相关的工作。

然而,随着大模型时代的到来,特别是 ChatGPT 的发布,在自然语言处理领域引发了广泛关注,并逐渐波及 CV 领域。模型能力的快速提升也在一定程度上压缩了传统 CV 研究的空间,尤其是 SAM(Segment Anything Model)的问世,在某种程度上被视为终结了 CV 领域的发展。

因此,大模型和元学习技术的发展实际上“侵占”了计算机视觉领域的工作范围。此时我也意识到自己必须进行转型。如今大家也看到,许多计算机视觉领域的研究人员正在积极转向具身智能领域,这是因为大模型确实极大地提升了机器人对物理世界中实际的理解以及执行和交互能力。

计算机视觉是一门强调应用的学科,而具身智能在机器人上的应用恰恰是一个非常对口的方向。因此,我从边缘进入具身智能这个领域时是从两个方面进行的:

  • 一方面,是从计算机视觉的角度来研究机器人的感知。在感知层面,多模态模型在信息整合和表达方面取得了显著突破,特别是在视觉-语言对齐后。然而,这些模型在感知“形式化知识”方面仍显不足。例如,GPT-4V 模型在面对更具结构性的视觉任务时,如识别多边形的边数,就存在明显短板——即便是六边形或七边形这样的基本形状,也可能出现错误判断。这类问题表明,尽管当前的开发模型在某些方面表现出强大的能力,但在感知能力上仍存在明显的缺陷。因此,如果将这种动态模型应用到具身智能领域,可能会带来一些重大的问题。因此,我想在形式化知识的感知方面做一些相关工作,以解决这类问题。

  • 另一方面,当前具身智能领域在数据方面存在一个很大的瓶颈,这也是我当前特别关注的方向。

黄浴:我最初学信号处理出身。在研究生阶段,因一次偶然的机会,我有幸聆听了一位来自美国的知名计算机视觉专家 Thomas S. Huang 西北工业大学的学术报告。这场报告让我对计算机视觉产生了极大的兴趣,尤其是他提到的一些与国防相关的应用案例,让我意识到这个领域的潜力和前沿性。因此,在读博士阶段期间,我决定转向计算机视觉方向这一研究方向。

彼时,这一领域尚处于早期阶段,研究进展相对缓慢,多数成果仍停留在实验室层面。相较于计算机视觉,图像处理的技术发展稍为成熟。我还记得我的研究生导师曾讲过,在他早期的科研中,处理一幅图像需要三四个小时,主要受限于当时的计算能力和内存瓶颈。在那个时代,处理视频任务几乎必须依赖专用加速卡,因为通用计算平台(例如基于 Windows 系统的 PC)难以胜任高强度图像处理的需求。在进入这个领域后,我被计算机视觉中严谨的理论体系和优雅的数学建模所吸引,特别是在贝叶斯理论和概率图模型的基础上,整个研究框架展现出高度的抽象性和美感。

然而,当时计算机视觉的产业化路径非常狭窄,相关研究多集中在学术界。除了少数几家企业开展视频监控等初步应用,几乎看不到商业落地的可能。我们经常说,博士阶段的研究往往充满前沿性和学术激情,但进入产业后却发现缺乏对接的市场需求。

在这样的背景下,我赴美开展博士后研究,并逐步将研究方向拓展到基于视觉的人机交互。这一方向也受到当时微软提出的“自然交互”理念启发,设想通过手势、语音、眼神等方式代替鼠标键盘,实现更直观的交互方式。然而,实际进展并不理想。无论是人脸识别、表情分析,还是语音交互和手势识别,尽管技术积累不断丰富,但始终未能突破瓶颈。

在语音识别领域,即便是 IBM、Intel、AT&T 等公司,在词汇量上万的条件下也只能达到约 80% 的识别准确率,几乎停滞在一个平台期。直到深度学习的出现,才带来革命性突破。微软最早将深度神经网络应用于语音识别,首次将准确率提升至 90% 以上。这一成果激励了整个 AI 领域的转型。

2012 年,AlexNet 在 ImageNet 竞赛中横空出世,其准确率远超传统方法,标志着深度学习在计算机视觉领域的正式崛起。随着工业界的重视,大量公司开始积极招聘视觉领域的研究人员。大约从 2014 年起,计算机视觉研究的重心逐步转向深度学习。

我于 2016 年进入自动驾驶领域,这一转型也受到 Google 在 2009 年启动无人驾驶项目的影响。此后至 2020 年,我长期专注于自动驾驶技术的研发与产业化。尤其是在 2019 年之后,特斯拉模式的迅速崛起引发了行业重大变革。尽管初期存在多种发展路线,但市场最终倾向于特斯拉的端到端、自主学习驱动的路径。这一阶段,行业已进入“拼成本”与“抢落地”的激烈竞争中。

在自动驾驶领域深耕多年后,随着 ChatGPT 的推出,我真正意识到大模型的颠覆性。尽管此前已有多种大型模型出现,但 ChatGPT 展现出的语言理解和推理能力,第一次让人们开始认真思考 AI 是否具备“智能”的基本特征。这也促使我转向关注大模型在具身智能领域的应用。

具身智能的潜力远超自动驾驶,不仅涵盖更多行业,也为人机协作、生产效率、智能服务等场景提供了广阔空间。因此,许多自动驾驶领域的研究者也开始转向这一方向。我逐步将研究重心放在具身智能及其机器人智能系统上。

目前,我尤为关注的是如何降低机器人智能系统的成本。无论是机器人还是具身智能平台,其硬件成本和开发门槛依然居高不下。我们希望推动这一领域像 PC 产业一样实现普及化,让更多开发者能轻松参与其中,这将极大地促进 AI 生态的繁荣。李飞飞教授近期提出的“空间智能”概念,也再次强调了“交互能力”在智能演化中的核心地位。他指出,仅依靠视觉进行环境感知的生物,其智能发展远不及能与环境主动交互的生物。因此,具身智能将可能成为推动下一代 AI 发展的关键力量。

我们相信,推动具身智能的普及化、平台化,可能是实现真正全民智能社会的突破口。

唐小引:此前,DeepSeek 团队发布了 DeepSeek VL2 混合专家视觉语言模型,该模型在计算机视觉应用中能够发挥重要作用,有望推动该领域取得突破性进展。在当前 AI 发展的背景下,计算机视觉还是一个值得长期投入的方向吗?

黄浴:多模态模型的诞生,实际上改变了我们对深度学习的基本认知。过去,我们主要依赖小模型来处理相对封闭、明确的任务,这在早期取得了不错的效果。但如今,面对更加复杂且开放的任务场景,例如开放事件识别、跨领域理解等,我们发现仅凭有限知识往往无法覆盖全部情况,容易产生遗漏。

如果模型的训练仍局限在封闭的数据集或知识范围内,那么后期的所有补充,几乎都是“事后弥补”的方式。这就导致了数据闭环问题反复出现。即便是深度学习框架下的小模型,也因其开发范式的限制,难以有效应对这种复杂性。

可以说,视觉领域在传统小模型范式下的发展已接近瓶颈。要突破这一限制,我们必须依赖大模型的能力。大型模型可以融合来自多种模态的信息,将感知、理解、记忆、反思、推理等多个层面的能力整合在一起,模拟人类更全面的智能模式。其中包括了对内容的深入理解、记忆和反思、思维链的组织方式等,这些核心认知能力的引入,只有在大模型的框架下才有可能实现。正是这种整合,使得我们有机会在计算机视觉、人机交互以及更广泛的 AI 应用中,实现真正意义上的跃迁。

在这种情况下,计算机视觉可能会持续存在。

唐小引:近两年不少自动驾驶领域的研究者开始转向具身智能。那么,自动驾驶与具身智能之间究竟有着怎样的交互关系?
黄浴在我看来,自动驾驶本质上就是一种机器人的应用形式。它具备移动能力,并能完成一个明确的任务:把乘客从 A 点安全送到 B 点,执行的是一种典型的“搬运”任务。
与一些需要更强交互能力的机器人不同,比如抓取物体、被人牵引、或执行复杂的人机互动,自动驾驶的核心并不在此。它的重点,是感知环境、规划路径,并最终控制车辆完成运动。其实这和空间智能是密切相关的。

具体来说,自动驾驶需要具备感知、规划和控制这三个基本模块。其中,感知模块识别周围环境;规划模块不仅负责整体路径的制定,还包括中层决策,例如什么时候转弯、变道或超车;而控制模块则落实到对车辆的具体操作。通过反馈机制,这些控制动作可以实现平稳、连续的执行,这种反馈式控制其实和我们在机器人系统中讨论的矩阵控制结构也有一定相似之处。

不过,自动驾驶也有其局限。例如,它在“任务完成之后”的行为模拟上还很薄弱,比如到达目的地后无法主动避让行人、与人交互、或进行更复杂的行为协同。这正是通用机器人需要补足的能力。

如今,很多机器人已经能够完成像抓取杯子、碟子,甚至处理坚硬物体这样的任务。这是否足以支撑智能的发展?这是值得讨论的。我们也看到,越来越多原本从事自动驾驶研究的专家,正在转向更广义的具身智能领域。

在自动驾驶热潮之前,机器人技术的发展主要由波士顿动力这类公司推动,它们在资金支持下,将许多早期 AI 理论真正落地。从符号主义到规则系统,再到神经网络,最后发展到强化学习,这一系列技术进步标志着从理论走向实践的转折点。

而现在,我们正处于由“大模型”驱动的新一波智能浪潮中。这些模型极大增强了系统的思维、推理和规划能力。从整个 AI 行业的发展来看,自动驾驶在过去曾吸引了大量优秀人才,它在技术集成和产业落地方面有着天然优势,是通向具身智能的一个重要桥梁。

这也解释了,为什么那么多自动驾驶领域的人才转向了具身智能。他们带来了跨领域的经验,推动了技术融合与发展。从这个意义上说,自动驾驶既是具身智能的人才孵化器,也推动了相关产业的进化,有助于将具身智能真正发展为未来的关键产业。

相比之下,比如语音识别等领域,虽然也重要,但在集成智能系统方面,可能还不如自动驾驶来得全面和复杂。而在我观察中,自动驾驶领域的系统适应能力也更强。

陈光:智能体的本质在于具备“思考”“行动”以及“与环境互动”的能力。只要同时拥有“脑子”(用于思考)、“身体”(用于执行)和“环境”(用于交互),这三要素便构成了具身智能的基本框架,也就是我们常说的“脑+身”系统。

无人驾驶汽车其实就是一种典型的 Agent,它不仅具备感知、决策和控制的能力,还能在真实环境中完成任务。虽然汽车不像人形机器人那样能够抓握物体,但它依然通过感知和控制系统与外部环境持续互动。例如,在车联网系统中,车辆之间的信息交换,以及车辆对周围环境的动态反应,都是“与环境互动”的体现。

这也引出了一个关键问题:具身智能是否一定需要一个“身体”?英文中的 Embodied Intelligence 强调了“身体性”的重要性。那么这个“身体”到底指什么?广义上看,它并不局限于人形或机械体。无人车、扫地机器人,甚至是元宇宙中的虚拟 NPC,都可以看作具身智能的载体。

具身智能可以细分为“思维智能”与“行动智能”两部分:前者包括视觉感知、语义理解等认知能力,后者则关注如何与环境互动、如何控制身体行为并获取反馈,从而完成学习和演化的闭环。

仅仅把一个多模态大模型装进机器人里,并不能称之为“智能”。当前许多系统仍缺乏主动性与任务意识,智能的真正本质在于主体在与环境互动中不断适应与进化,而非只是具备感知能力。

因此,广义的具身智能,强调的是“有思维、能行动,并能与环境持续互动”的系统。它可以是物理的,比如无人驾驶汽车、工业机器人、无人机;也可以是虚拟的,比如具备感知与决策能力的元宇宙角色。

从这个角度看,许多原本从事自动驾驶或计算机视觉的专家,如今投身具身智能的研究其实是顺理成章的转变。因为他们原本就在处理感知、决策与控制等关键问题,只不过现在的研究对象和应用场景更加广泛和开放。

夏轩:我认为,除了研究范式的趋同之外,还有一个重要原因在于产业链的高度重合。自动驾驶所涉及的传感器、环境建模、导航避障以及人机交互算法等技术,与机器人具身智能系统中的需求高度一致。尽管我们在乘用车上看不到机械臂的直接应用,但在汽车生产过程中,机械臂早已是关键环节。这种技术与产业的通用性,使得从自动驾驶转向具身智能成为一条自然的路径。


不同视角看具身智能

唐小引:关于具身智能,过去业界很多讨论也常常给人模糊不清的感觉。请各位老师分享一下自己对具身智能的理解,以及对具身智能的定义是什么?

陈光正如教科书中的定义,具身智能是一种“感知—认知—行动”的闭环机制。简单来说,就是系统具备“能理解、会思考、能行动”的能力。当然,环境的参与也是不可或缺的。如果一个系统只能思考和行动,却无法与环境交互,那它就无法形成完整的智能闭环。

具身智能的核心在于:感知环境、作用于环境、获取反馈,并在这一过程中持续学习、优化自身,这其实也是一种智能的“升级”机制。

从这个角度看,智能系统必须具备三大要素:认知、情感与环境。如果缺失其中任何一个,智能都无法真正成立。换句话说,具身智能本质上是思维智能与行动智能的深度融合,构成了一个动态、自洽的闭环系统。

黄浴:具身智能首先要有一个“实体”,一个能够与环境互动并对其施加影响的身体。这种交互不仅是单向的,而是一个闭环的过程,通过感知反馈不断调整行为,实现学习与进化。

关于具身智能的未来,一个重要问题是:我们是否能在这一领域构建出通用大模型?目前,行业中已有相关尝试。例如,英伟达最近发布的 Cosmos 世界基础模型平台以及 GROOT 人形机器人基础模型,正是在探索这一方向。大家也在讨论:机器人基础模型能否引发一波热潮?如果成功掀起一波浪潮,正如黄仁勋所设想的那样,我们将迎来具身智能的重大跃迁;如果做不起来,可能就像 OpenAI 早前发布的 Sora 一样,引发争议和反思。

虽然像视频生成技术已经取得了一定进展,但仍面临诸多挑战。当前的这类基础模型还无法全面反映现实中的理论体系,因而常出现 Bug,这说明模型还需要更多时间去学习与迭代。类似问题也出现在机器人领域,像数据瓶颈等问题,仍制约着具身智能的发展。

夏轩:我认为,具身智能的定义不应局限于是否拥有物理实体。即便是在虚拟空间中,只要具备感知、认知与交互能力,一个虚拟身体同样可以被视为具身智能的载体。

两位老师此前提到的关于“感知—认知—交互闭环”的讨论,我觉得这是从外部视角来看而对具身智能的定义。从内部视角,我想补充这个定义。我认为,一个真正“具身智能”应该具备两个核心的内部模型:

  • 第一个是世界模型世界模型的核心功能是认知世界万物的组成,它不仅要理解世界由哪些元素构成,还要掌握这些元素如何运转——无论是汽车行驶、飞机飞行的原理,具身智能都应有能力建模并推理这些机制。

  • 第二个是自我模型。它用于智能体理解自身在环境中的位置、角色和任务。这一模型对于智能体在复杂环境中做出合理决策和行为至关重要。

只有具备了这两个模型,智能体才能真正实现与外部世界的“合理互动”——也就是说,其行为不仅对自身有意义,也能被外部观察者理解。

唐小引:自我模型究竟是什么?

夏轩:“自我模型”有些类似于 Agent,是通过为大模型赋予角色来实现的。一个更加成熟的自我模型,或许应具备更清晰的模块化结构,比如独立的记忆模块、人格模块,以及道德与伦理模块等。

这些模块协同工作,构成一个能够持续自我更新与调节的机制。当然,这一设想仍较为初步,相关研究尚处于探索阶段,尚未形成系统化的方法论。

陈光:这可以从两个层面来理解:一方面是对 Agent 整体的建模,包括其角色设定与具备某种程度“自我意识”的决策机制;另一方面,则涉及视觉领域中常讨论的“以自我为中心”的视觉与行动方式。

我认为,当前机器人其实没有“我”的概念。即现有系统在执行任务时,并不真正具备“自我”,它所做的更多是对意图的理解、任务的分解以及行动的规划,基本上遵循一个外在指令驱动的流程。在这个过程中,它忽略了人作为生物体所具有的独特性——特别是人的主观意识和自我认知。

“自我”这种存在于行动或者思考过程中会形成两个“主体”:一个是“世界”,一个是“我”。真正具身智能系统应能够在执行任务的过程中,考虑到自身与其他智能系统的个体差异——包括身体特征、习惯偏好乃至心理状态——并在与环境互动时不断优化这种关系,从而影响其后续决策。

然而,目前的机器人系统更像是任务执行的“工具”,并未体现“我”的个性。例如,当系统被指令“将苹果放入盘中”,它关注的更多是如何驱动机械手臂完成动作,而不是在什么速度、什么姿态下完成这一动作才最符合“我”的特征和行为风格。

我认为,这种以“自我”为核心的动态调整机制,也应是未来自我模型构建的重要方向之一。

黄浴:实际上,当我们谈及情感,乃至“自私”或“无私”的行为时,讨论的都是个体的社会属性。在多智能体系统(Multi-Agent System)的研究中,这类社会行为和性格特征已经成为重要的探讨方向。当前,大家对 Agent 的理解已经不再局限于具备基本的思维与反思能力,而是逐步发展为:具备先验知识、能参与群体互动,并在协作中展现群体智能。
近年来,关于群体智能的具体表现形式也有了更明确的讨论。例如,认知系统中常被提到的 System 1 和 System 2(对应快速反应与慢思考)已经广为人知。而一些研究者进一步提出 System 3,用于描述群体智能的运作机制;甚至还有 System 0,用以指代尚未形成认知的“预认知状态”(pre-cognitive state)。

有人将这种认知结构扩展为“四系统模型”(Four-System Model),其核心是试图从系统架构角度建模 Agent 群体中的协作机制,包括角色分工、任务协调等。

在设计这类系统时,我们常常会为每个 Agent 设定具体角色,例如经理、工程师、QA 或项目管理者等,每个角色承担不同职责,从而构建出一个具备协作能力的多 Agent 系统。

从这个角度来看,大模型领域的“专家混合模型”(Mixture-of-Experts)也体现了类似的思想:系统由多个较小模型组成,通过一个“路由器”模块协调各模型的调用,以实现整体性能的提升。与传统的大模型相比,MoE 中的各个子模型通常更小,因此具备更好的灵活性与可扩展性。

除此之外,例如 Meta 的 Ego4D 项目便强调了“以自我为中心的视觉”在人与机器人行为建模中的关键作用。毕竟,不论是人还是机器人,操作任务时几乎都依赖这种第一人称视觉。

然而,在模仿学习(Imitation Learning)中,我们通常采用的是第三人称视角,例如通过观察他人踢球或做饭来学习动作。要将这种观察转化为机器人可执行的动作,就必须实现“视角转换”,这对计算机视觉系统来说,等同于坐标系的转换。

此外,对于具身智能系统而言,这种视角的切换也反映了其学习能力的核心挑战。一个模仿能力强的系统,应当能将第三视角的观察有效地转化为第一视角的行为策略。实际上,在执行复杂任务时,这两种视角往往需要结合使用。

陈光:有人认为机器人具备自我是极其危险的。我认为,这种担忧可能源于对“EGO4D”一词的误解或混淆。在我们的讨论中,“EGO4D”更多指的是主观视角,即以自我为中心的感知与决策方式。而不少人理解中的“自我”指的是“自我意识”这一概念,与主观视角并不等同。因此,关于人工智能是否能够、或者是否应该拥有自我意识,是一个至今尚无定论的开放性问题,因为我们对自我意识本身的理解仍十分有限。

回到“Agent”这一核心概念。它在具身智能与当前基于大模型的 AI 系统中,实际上指代的是两类不同的智能体:

一方面,在具身智能中,“Agent”通常指的是一个拥有身体与感知能力、能够与环境交互的智能个体——它不仅仅是思考和推理,更具备行动能力和自主反馈机制。

而另一方面,像 Manus 这类系统中的“Agent”,更接近于“代理”角色,它们是大模型前端的执行单元,负责意图识别、任务分解、工具调用与结果整合等。这类 Agent 更像是一个任务管理器或调度器,强调的是工程集成能力,而非自主性。这些 Agent 可能基于同一个底层大模型,通过不同的设定与提示词执行各自的任务,比如反思、修正或评估。这种多轮推理的过程,本质上也是一种由多角色协作完成的“程序运行”,它引入了更多不确定性与反馈机制,进而提高了结果的鲁棒性与智能性。

因此,我们有必要明确区分这两种 Agent:一种是具身智能意义上的 Agent,强调与环境的交互、自我建模与演化;另一种则是工程意义上的代理 Agent,更侧重于任务执行与系统调度。虽然在英文中都称作 “Agent”,中文也都翻译为“智能体”,但两者内涵和能力边界存在本质差异。

目前,一些专家倾向于将后一类 Agent 称为“代理”,以避免混淆。尤其在当前“Agentic Workflow”热潮背景下,不少观点认为 Manus 一类的系统本质上更像是工程方案的集成成果,而真正实现意图理解、任务拆解和工具协同的核心能力,依然来自底层大模型。因此,从创新性与技术壁垒的角度来看,值得更多掌声的是基础模型本身。

不过,这也提醒我们,大模型虽强,却只是整个具身智能系统中的一个组成部分。完整的智能体还需要依赖多模态感知能力、对世界的建模能力,以及在持续环境交互中进行自我迭代的机制。这些能力并不能单靠大模型独立完成,而是需要与感知系统、记忆模块、自我模型等更广泛的系统架构协同工作。


我们离通用机器人还有多远?

唐小引:黄仁勋认为“通用机器人时代已经到来”,在大家看来,目前具身智能的发展现在处于哪个阶段?

陈光:我认为,智能的发展是一个逐步成熟的过程。关于通用具身智能是否已经到来,这并不是一个可以用“是”或“否”简单回答的问题。所谓“通用”,更像是一个渐进的过程,而不是某一时刻的突变。

从目前的情况来看,我们可以说已经迈出了通向通用智能的第一步,但要真正实现全面通用,还有很长的路要走。当前,我们在技术基础设施、算法、传感器和执行器等方面,已接近一个临界点,技术成果正在逐渐显现,但从研究到落地仍需时间。

换句话说,一只脚已经跨入了门槛,但整个系统仍在演进之中。尽管如此,我们的方向是明确的,正在沿着正确的轨道前进。随着对通用智能的持续探索和理解的不断深化,我相信我们正进入一个令人振奋的新阶段。

夏轩:我认为,我们现在仍处于“刚刚起步”的阶段。无论是通用机器人的本体,还是支撑其运行的算法与模型,目前都远未达到收敛状态。从发展顺序来看,我判断算法和模型会比本体更早接近收敛,但即便如此,这个过程在短期内也难以完成。因此,我们可以说,通用机器人只是刚刚迈出了第一步。

而且,“通用”究竟指的是什么?这一概念本身仍缺乏清晰的定义。在我看来,通用性可以从两个层面理解:狭义上,它是指机器人能复制人类的能力,胜任人类日常执行的各类任务;广义上,则意味着机器人还能完成人类做不到的事情,具备超越人类的能力。

不管从哪个角度来看,现阶段的机器人都还远未达到所谓“通用”。比如说,若想复现人类的复杂能力,像前空翻、后空翻或侧空翻这些高难度动作,虽然人类可以轻松完成,但机器人目前还只能在特定条件下尝试。再如精细操作领域,灵巧手的发展也仍停留在实验演示阶段,离真实应用还有很长的路要走。

至于实现“超人类能力”的通用性,更是遥遥无期。特别是在特定场景下,比如水下救援,我们现在仍需要依赖专业化的机器人。通用机器人尚无法应对复杂环境的适应性要求。因此,在可预见的时间内,实现“通用本体”难度很大。相比之下,构建可跨多种平台使用的通用算法或模型,也许是更现实的路径。我们可以优先发展具备泛化能力的模型,然后再适配到不同的机器人硬件上。

总的来说,具身智能领域算法和模型离真正的“收敛”还很远,更别说达到类似大模型那样的全局最优状态。我们确实只是刚刚启程。

黄浴:技术生命周期曲线来看,具身智能正处于第一个上升期,也就是早期爬坡阶段。同样从机器人本体的研究和算法与模型的研究来看具身智能的发展。

从本体角度来看,当前机器人在许多关键能力上仍然存在明显短板。以触觉感知为例,大多数机器人并未配备足底触觉传感器,导致其在行走时不得不依赖膝盖弯曲来保持平衡。为什么人类行走时可以轻松保持直立?这是因为我们的脚底具有高度敏感的触觉系统,能实时感知地面信息,从而实现动态稳定。而在缺乏这一感知机制的情况下,机器人就如同杂技演员没有平衡杆,只能依靠其它关节或冗余动作维持稳定,运动控制变得极具挑战。

再来看机器人的操作能力。现在我们看到的很多“表演型”人形机器人,常展示走路、跑步、空翻等动作,虽看似高难,实则偏离了真正的“人类任务”语境。现实中,一个人完成任务往往是全身协同的结果。比如端一个物体时,可能会用腹部支撑、双手托举,同时还要调整身体重心维持平衡。这种多点协作和感知调控,目前的机器人系统还难以实现。

现实中的机器人系统往往是“拆分式”的:要么专注行走,要么做导航,要么执行某项任务,很少能真正整合多个功能,像人类一样自然流畅地完成一件完整的事。这就引出了算法方面的挑战。高自由度系统的控制十分困难,尤其在具身智能中,每增加一个感知通道(如视觉、触觉、听觉),模型所需处理的维度就更高,算法的鲁棒性也随之下降。传统算法设计中,我们常用“分治算法(divide and conquer)”策略,把高维问题拆解为多个低维子问题。

但问题在于,随着系统维度不断上升,模型对扰动的敏感性也会增加,越复杂的模型越容易出错。以灵巧手为例,过去我们在采集手部操作数据时,使用的是数据手套,这种方法虽然方便、成本低,但它的自由度远远不及真实人手。而当前市场上某些高自由度的仿生手系统,虽然看起来“高大上”,却往往不够实用——它们的控制复杂度极高,需要布置大量电机,成本也非常昂贵。即使现在已有公司尝试商业化这些产品,但如果性能、稳定性和成本难以平衡,用户是否愿意为此买单仍是未知数。


具身智能的技术突破该怎么走
紧随潮流 vs 长期沉淀

唐小引:从具身智能企业建设的视角来看,有两个常被提及的观点:一是顺应技术趋势,二是坚持长期主义。看似矛盾的两者,在具身智能领域体现得尤为明显。当前,具身智能被视为通往 AGI 的一个关键方向,正处于快速发展期,但仍面临高成本、通用性不足等现实挑战。对于企业而言,如何在紧抓趋势和长期投入之间找到平衡,即商业化之路怎么走?对于个人,当投身于这一领域时,该如何看待职业发展与长期投入的关系?

陈光:这一问题其实包含两个层面:一是研究需要耐得住寂寞,二是应用开发不能耐得住寂寞,必须紧跟技术前沿发展。

至于开发者在做创新应用时是否应该去追逐“通用型机器人”,核心还是在于“通用性”这个概念。实际上,只要一个任务可以被清楚地定义,比如“翻跟斗”或“拧瓶盖”,那它就不再属于“通用”的范畴,而是一个具体的功能。即便我们把多个这样的任务组合在一起,也不等于真正意义上的“通用智能”。

我们理想中的“通用性”,是希望机器能像人一样,灵活应对各种未知的复杂情况。但现实中,只要任务能被明确描述,大多都可以通过现有技术,比如强化学习,在模拟环境里逐步逼近目标。这也带来一个悖论:一旦你能把任务清楚地说出来,它往往就已经不是“通用”的了,而变成一个可定义、可求解的问题。

对产品开发者来说,更务实的做法是专注在某个具体场景上,而不是追求“什么都能做”。比如在医疗或家庭陪护场景下,如果机器人能做好三件事:推轮椅、帮老人起身、能简单交流——那就已经很有价值了。它可能谈不上“通用”,但在家庭陪护实际应用中,已经足够实用。如今,要实现“在任何场景下都能胜任任务”的通用能力,技术上还远未成熟。这一块的挑战存在于多个层面——从感知传感器、执行控制,到大模型本身。虽然大模型已经展现出很强的智能,但它对许多任务的理解仍不够深入,尤其在任务分解上还有明显的局限。因此,我们必须回归现实,围绕明确的场景和需求进行有针对性的设计。

其次,对于研究者与开发者的不同节奏问题,我认为,研究确实需要长期投入,聚焦一个方向,并能耐得住长期没有结果的孤独感。我自己做大模型安全相关的研究就深有体会,比如对齐问题,往往会牺牲底层模型的能力,这需要反复探索和权衡。

但作为开发者,我认为要敢于用当下最前沿的能力。即便现有模型还有不足,很多场景其实已能跑通。例如,Agent 其实早在前年就已出现,只是到了 2024 年底,随着大模型对任务拆解、工具调用能力的提升,它们才真正实用起来。我们看到的“Agent 热潮”,不是偶然,而是底层能力逐渐成熟的结果。

开发者无需等到所有技术都完善才开始做产品。相反,应在已有能力的基础上搭建框架、明确路径,并随着技术进步逐步完善细节。就像过去一些看似零散的探索,最终构建起了完整的智能系统雏形。

要知道,底层模型能力再有限,也有其应用场景。关键是开发者要找到那个“刚刚好”的匹配点,真正把技术用起来。同时,也需要持续关注新技术的突破,保持学习和迭代能力。

我理解的长期主义,并不是一味死守某个方向,而是要在一个价值取向上持续投入,不断适应和调整。在研究领域,可能要忍受长期没有结果的反馈;但在产品开发中,更应重视快速验证和迭代。小步快跑、持续试错,是推动创新落地的有效方式。

夏轩:对开发者,尤其是创业者来说,具身智能的落地更可能首先集中在固定的垂直场景中,而不是追求“万金油”式的通用能力。如果客户提出“什么都能干”的需求,那多半是脱离现实的。

选择垂直场景时,最好能配套一个大客户。因为大客户不仅意味着稳定的支付能力,也能为产品赋能,在应用中提供真实反馈和场景打磨。

在垂直场景之外,我认为工业领域尤其值得关注。为什么选择工业?因为工业场景具备可扩展性。相比某些客户虽然有付费能力但场景单一的情况,工业系统一旦跑通,就具备复制和推广的可能,尤其是在制造业等领域。在这类场景中,模仿学习和强化学习等技术能够发挥基础作用。

虽然我们的最终愿景是让具身智能进入千家万户,但现实是这条路注定需要几年的技术沉淀。

目前,具身智能无论是感知还是操作的精度,从实验室走向真实世界,仍存在至少两个数量级的差距。哪怕在某些做得较好的任务中,其准确率能达到 99%,但工业领域可能需要达到 99.99%,这就与实验室目前实际能达到的水平相差甚远。

因此,对开发者而言,关键是如何围绕特定场景持续提升系统精度,真正实现技术的可用和可落地。

唐小引:相比于追求通用机器人,你们都更强调开发者应聚焦于专用型机器人。那具身智能未来最有可能率先落地的三个典型应用场景会是哪些?

陈光在当前技术尚未完全成熟的情况下,推动具身智能落地的关键反而可能来自需求和资本两个层面。从这个角度看,我认为,家庭看护、家务服务是两个最基础、也最现实的需求方向。

夏轩:如果要给具身智能的应用做一个排序,我的 Top 3 是这样的:

  • 第一是检修类场景。无论是电力检修,还是汽车维修,都高度依赖人工,而在实际生活中我们往往忽视了汽车维修行业的规模和复杂性。实际上,每天都有大量车辆需要维修、保养,是一个典型的、高频次的刚需场景,非常适合智能化介入。这个场景的复杂性在于,每天都会遇到各种不同类型的问题,车辆状况千差万别,对机器人提出了更高的感知、分析和交互能力要求。如果能在这一领域实现突破,将会非常有价值。

  • 第二是工业制造场景。当前自动化水平高的工厂可能暂时不适合部署人形机器人,因为已有流程已经足够高效。但对于那些自动化水平尚不高的工厂来说,直接引入具身智能体甚至比升级现有自动化设备更划算。它们可能跳过传统自动化阶段,直接进入智能化阶段。当然,这背后也需要进行相应的环境改造,以便机器人能更好地适应和操作。但如果从长期成本和灵活性角度来看,使用人形机器人替代人工,反而是更具性价比的选择

  • 第三是家庭场景不过我认为,家庭领域的落地还需要更长的时间,短期内并不具备规模化部署的成熟条件。一个主要问题是安全性,家庭机器人可能踩到障碍物后跌倒造成安全隐患;另一个是当前有很多家庭未必能够负担得起购买人形机器人。我认为,最早实现商业落地的将是某个垂直领域,且该领域内存在愿意付费的大客户。

所以从我的角度来看,工业场景因其规模化潜力,即使利润微薄,只要市场规模得以突破,仍能带来可观的收入。然而,直接进入消费市场若生产过剩而无法销售,则可能会遭受重大亏损。

黄浴:关于前面提到的通用型机器人,也就是能够胜任多种任务的机器人,英伟达近期的研究成果似乎让通向通用人形机器人的路径变得更加明晰。根据最新的报告显示,研究人员普遍认为Figure 的 Helix 中所提出的“系统一”(快系统)和“系统二”(慢系统)的双系统架构,可能是实现这一目标的关键。

在这个架构中,“慢系统”利用大型模型的推理能力处理复杂问题,而“快系统”则借助类似 Transformer 的结构进行快速响应。例如,Figure 的 Helix 模型可实现约 200 赫兹的响应频率。英伟达近期的报告中也提出了两类模型:一类用于推理,另一类针对人形机器人设计,其架构同样体现出快慢系统协同的理念。这种方式为通用机器人的实现提供了一种思路。

从人类的学习过程看,这种“快慢系统”机制也有对应。比如学习骑自行车,最初大脑高度参与,需要不断学习、模仿、练习;而一旦掌握后,骑行几乎不再依赖大脑主动控制,这正是所谓的“肌肉记忆”。

事实上,人类从幼儿期开始就不断通过这种方式积累技能。比如学走路,一旦掌握,成年后几乎不会忘记。除非出现老年退化或疾病,大多数人都能自然行走。因此,实现通用机器人的一大关键,在于如何让其掌握并组织复杂或熟练的技能,并具备持续学习与演化的能力。

通用机器人还应具备自主学习能力,而非依赖人工介入。比如,如果我让一个机器人执行某个动作,然后它能够自行掌握该动作,那么我们就实现了通用机器人。否则,我认为它还不能被称为通用机器人,这实际上是一种持续学习的能力。

从机器人本体层面看,目前机器人的灵活性仍不成熟。尤其是在灵巧度方面,诸如转动笔这类动作,需要高度精细的手指控制与触觉反馈,而这是当前机器人尚难企及的能力。缺乏灵巧硬件支撑,通用机器人的实现仍有距离。

谈到机器人最能落地的应用场景,我认为最容易实现的是生产线上使用的机器人,因为其任务明确、可拆解。而最具挑战性的场景,则是涉及高危或高互动性的工作,尤其是与人密切协作的情境。

例如,机器人照顾老人或小孩,这类任务安全性要求极高,很难放心完全交由机器人独立完成。相比之下,那些不需人类陪伴、可独立作业的场景更适合目前的机器人能力。比如执行分拣、清理或危险作业,这些都可以视为更现实的应用方向。


直击具身智能痛点

数据瓶颈、计算瓶颈、模型架构

唐小引:在具身智能研究中,数据瓶颈是一个公认的关键问题。除了数据瓶颈外,计算资源和模型架构也存在诸多挑战。请各位老师结合自己的观察谈一谈这三大痛点问题?

夏轩具身智能中的数据本质上是为模型服务的,而模型类型决定了所需的数据类型。目前主流模型分为两类:分层决策模型和端到端模型。这两类模型还可以细分为不同形式,比如分层决策模型可以分为快慢系统(类似大脑与小脑的分工)或大脑直接调用各类技能模块。有些技能模型专门负责抓取、按钮操作等具体功能。

针对可学习的模块,大致可以分为四种:大脑模型、技能模型、小脑模型,以及端到端模型。不同模型对训练数据的需求差异显著。

其中,大脑模型实际上相当于一个大型通用模型。它不仅需要掌握物理世界的常识,还要理解人类指令、技能等,这要求覆盖大量场景、任务、机器人类型和传感器配置。为了满足多样性要求,单一组织很难独立采集足够丰富的数据。此外,结合人类演示与机器人感知数据时,如何保证数据质量也是一大挑战,数据质量评估成为瓶颈之一。

另一个问题是,真实数据的采集速度只能线性增长——增加人力与设备只能带来成比例的提升。而模型性能提升遵循 Scaling Law,呈指数增长,导致数据增长速度远远跟不上模型训练需求。

在这种情况下,合成数据成为重要补充。但合成数据的效果又高度依赖仿真平台的拟真程度,而现有仿真技术仍无法完美还原真实世界。因此,如何合理结合真实数据与合成数据,成为当前学界关注的重要问题,但仍缺乏成熟答案。

黄浴我认为,最理想的数据来源是人类,如果能直接应用于机器人,那无疑是最佳选择。但实际上,人类数据很难直接获取。比如,通过观察视频,很难准确提取出类似机器人数据中的关节轨迹和运动信息。因此,目前最优质、最可控的数据往往是通过机器辅助生成的,比如借助外骨骼设备等。
在这过程中,出现了一个过渡阶段,即利用 VR 设备辅助数据采集。通过佩戴 VR 头盔并执行特定动作,再结合 VR 设备中传感器对动作进行标注,可以一定程度上弥补人类数据难以直接使用的问题。总体而言,在当前阶段,机器人数据相对容易采集,而人类数据标注则成本高昂且困难重重。

虽然互联网上有海量视频,但现有人工智能技术在动作提取和精确标注方面的准确率仍然很低,因此依然难以大规模直接利用。这也导致目前几乎所有具身智能研究者都承认,数据缺失是一个普遍痛点。

要真正解决这一问题,或许只能依赖分布式采集和建设。例如,Google 正在尝试通过大规模收集机器人交互数据来构建以及训练一款基础模型。但对大部分开发者和中小型团队来说,更现实的路径可能是通过“平民化”的方式,以最低成本去采集和使用数据。数据采集和处理后,再尽可能提升数据的泛化能力,减少模型对具体实体和场景的依赖,也能大大提高数据的重复利用率。

我认为,这种以低成本快速迭代、落地应用,再通过逐步实现商业价值,进而回收成本,最终反哺数据质量提升的模式,可能是最符合当前产业发展需求的一条路径。毕竟,即使是像 Google 这样资源丰富的公司,也难以长期承担纯靠高投入堆砌数据的方式。

当然,短期内我们也能看到一些经验教训。在大语言模型早期发展阶段,训练数据主要是文本,且绝大部分是英文。这些数据来源广泛、共享良好,且利用自监督学习的方法(如 Masked Language Modeling)基本不需要额外标注,极大降低了成本。而具身智能则不同,一开始就缺少可以直接用的大规模高质量数据。

因此,相比当年 LLM 面临的问题,如今具身智能在数据上要艰难得多。当前,我们不仅要解决存储、计算资源、模型架构的问题,更要优先突破数据瓶颈。没有足够好、足够多的数据支撑,后续的分析和模型优化都难以为继。

如果我们能率先降低数据获取和处理的难度,后续在计算和模型架构上的突破也有望加速到来。

陈光很多之前接触技术不多的朋友可能会疑惑:为什么具身智能需要如此大量的交互数据?实际上,人类的学习有两种基本方式:一种是通过示范学习,比如观看视频、模仿他人的操作,从中理解并习得经验;另一种则是通过亲身实践,在与环境的持续交互中积累知识。

对于具身智能而言,它实际上是一个以环境交互为核心的机制。因此,通过自身的体验来学习,是目前最有效且高效的方法。虽然现在也有模仿学习,比如通过 YouTube 视频训练模型,但在实际应用中,这类方法在迁移能力、鲁棒性等方面仍面临巨大挑战。

举个例子,比如实现机器人“踹不倒”的功能,只有当它真正经历了失去平衡、重新调整、恢复稳定的全过程,机器人才能收集到有价值的数据,用于强化学习。这种通过亲身体验获得的数据,是提升模型能力的关键资源。

相比之下,像 AlphaGo 这样的系统能够快速提升,是因为它们可以在虚拟环境中无限次地进行自我博弈,快速累积经验。但具身智能要想通过仿真环境采集数据,要求极高。环境模拟不仅要精准,还需要考虑气温、气压、地面摩擦力等复杂因素。当前的仿真系统很难达到这种精度,因此,许多关键数据必须在真实世界中采集。但现实世界的数据采集受限于物理时间和资源成本,没有“加速键”,无法像虚拟环境那样批量生成。

因此,解决数据瓶颈,需要从多个方向同时推进:

  • 首先是自监督物理探索。就像我们在虚拟世界或 VR 中做的那样,让机器人自主探索环境、生成数据,无需大量人工干预。

  • 其次是生成式合成数据。可以借助大模型,像天气预报那样,通过拟合真实世界中各种复杂因素(如扩散模型、Transformer 等),生成更加精确可靠的训练数据。

  • 此外,我们还应打破传统从模拟到现实(Sim2Real)的一条路思维。未来,更理想的方式是现实与模拟的双向融合:在真实世界中采集那些低成本、高价值的数据,在仿真环境中生成难以直接获得的数据。对于任务精度要求不高的部分,可以充分发挥仿真的效率,形成现实与仿真的混合训练体系,从而缓解当前数据不足的问题。

  • 另一个方向是少样本学习。很多物理规律,尤其是稀有、小概率现象(比如杯子破碎、水穿杯子等现象),在传统采集中容易被忽略。通过少量示范提炼出普适知识,能有效补足这类罕见场景的数据空缺。

  • 同时,多智能体(Multi-Agent)学习也是突破口之一。比如 Meta 研究的多智能体协作逃离迷宫,就是通过多个 Agent 互相传递经验,降低单体学习对数据量的要求。这种经验共享机制,能显著提升学习效率。

  • 最后,机器人自身的内在驱动力设计也很关键。当前机器人在探索环境时,普遍缺乏“好奇心”,导致数据收集效率低。注入好奇心机制,不仅能让机器人更主动探索,还能实现长时间持续的数据收集。例如,一个具备好奇心的机器人,能做到 24 小时不间断地在环境中学习和记录,这对缓解数据瓶颈意义重大。

综上所述,虽然具身智能这条路充满挑战,但也蕴藏着希望。那些易于获取的成果,如同低垂的果实,早已经被摘取了,未来的发展必然是逐步攻克越来越难的技术壁垒。这不仅需要时间,还需要各类技术积累与组合创新的共同推进。


未来展望

唐小引:在大模型领域,大家对未来的关注集中在 Agent、Scaling Law 等方向上。那在具身智能领域,其未来有哪些值得关注的方向以及趋势?

陈光从长期发展的角度看,我们可以观察到几个明显的趋势。

首先,具身智能正从性能优化转向适应性设计。其中性能优化主要涉及到机体性能的提升,或是智能思考、任务分解与规划能力的增强。但相比之下,适应性显得更为关键。当前机器人大多只能完成预设任务,若要迈向通用化,必须强化环境适应与新任务应对能力。因此,适应性设计将成为未来发展的核心关注点。

其次,是从确定性控制转向概率性思维。因为现实世界本质上充满了不确定性和随机性。对规律的认识与世界的建模,关键在于如何在确定性中融入不确定性,或者在不确定性中体现确定性。因此,从大模型应用到具身智能设计,再到环境交互,概率性思维是关键一环。

再者,具身智能正从分析还原走向整体涌现。过去,机器人主要通过合成数据和真实数据学习经验、知识与技能,以实现更自然的交互。而未来,我们将见证具身智能实现类似于 ChatGPT 到 OpenAI o1 的转变,它将在多轮、多智能体交互中展现更强的智能与动态逻辑性。

最后,具身智能的机器人正逐步从工具属性转向伙伴属性。这与我们使用大语言模型的方式类似:不仅仅让它们完成特定任务,而是与它们共同探讨问题解决方案。这种范式的变化正在加速,就像许多影视作品中描绘的一样,现实中也已有初步的体现。以《钢铁侠》中的 JARVIS 为例,它不仅是一个工具式的 API,还能提供建议、协助头脑风暴,甚至参与设计过程。正是这种协作与伙伴式的交互,带来了更丰富的体验与功能。

以上四个方向,无论是对研究者还是开发者来说,在未来都值得重点关注。

黄浴 :在数据方面,我认为有两点尤为重要:一是如何构建高质量数据,二是如何高效利用现有的互联网数据。人类创建的数据始终备受关注,一方面因为它有助于缓解未来可能面临的数据匮乏,另一方面也与仿真技术的发展密切相关。合成数据长期以来被视为弥补数据不足的有效手段。

近期,无论是 Sim-to-Real 还是 Real-to-Sim 的闭环过程中,都能看到计算机视觉领域对神经渲染技术的持续探索。比如早期的 NeRF,以及近年来出现的 Gaussian Splatting高斯溅射),这类技术不仅能够基于真实数据重建高逼真场景,还能大幅提升仿真环境的质量,因此成为当前的研究热点。

从具身智能的视角来看,数据问题本质上也是一个 AI 问题,涉及安全性、可解释性等核心挑战。同时,模型的泛化能力也是未来的关键议题——即能否在新环境、新任务下快速适应,实现举一反三。特别是在目标、环境或任务发生变化时,模型如果无法及时调整,就难以在实际应用中发挥价值。比如在自动驾驶领域,适应速度就是衡量智能系统性能的重要指标。

最后,我们也在关注底层智能对社会产生的深远影响,包括与人文、伦理及社会变革相关的问题。

夏轩关于具身智能,未来的发展趋势可以归纳为以下几点。

  • 首先,在数据方面,未来需要更大规模、更高效的数据生产手段。尽管我们可以通过合成数据或互联网数据训练基础模型,但在真正应用到具体机器人时,仍离不开针对性的真实数据微调。因此,如何提升数据采集效率,成为亟待解决的关键问题。

  • 第二,模仿学习与强化学习的融合将成为趋势。这二者各有优劣:模仿学习依靠观察获得能力,强化学习通过环境交互进行优化。单独使用时,二者在准确性和收敛速度上各有局限。近年来,越来越多研究者探索将二者结合,相信这一方向将在不久的将来带来重要突破。

  • 第三,具身智能的系统架构正在经历从分层决策到端到端,再回到分层决策的演变。早期采用“大小脑”式分层结构,强调工程实现;后来,端到端方法尤其以特斯拉的自动驾驶技术为代表,一度受到高度评价,引发了是否可以全面端到端的讨论。但实践证明,端到端方法在推理效率和实时性方面存在局限。因此,业界又开始关注快慢系统的分层组合。我个人认为,这种模式更接近人类认知处理方式,未来有望成为主流。

  • 第四,具身智能的最终目标是通用性,而人形机器人则是实现这一目标的重要载体。实现通用性要求机器人能够适应人类环境,具备良好的环境兼容性、地形通过性和工具使用能力。此外,协作兼容性同样重要。为了在家庭等场景中安全应用机器人,需要确保它们在与人类共处时不会造成潜在伤害。若一个人形机器人动作失控,对周围人造成伤害,显然是不可接受的。因此,初期可以优先将人形机器人部署在不易造成人身风险的场景中,逐步打磨其与人类的协作能力。

  • 最后,还需要关注机器人的环境适应细节。例如,当机器人进入室内时,如何应对鞋底沾泥的问题?未来,机器人需要具备自行更换鞋子的能力,而不是依赖人类操作。这类看似细小的场景细节,其实都直接关系到机器人能否真正融入人类日常生活。

关于《万有引力》:

这是由 CSDN &《新程序员》执行总编唐小引主理的对话栏目。技术趋势多变,一不留神总担心错过。正在发生的技术事件,对于我们开发者意味着什么?我们面临的诸多困惑从何寻找答案?《万有引力》即志在于此,直面事件与困惑,抽丝剥茧,解读技术真相。

  • 栏目定位:一档面向开发者群体,聚焦解读技术事件的对话直播栏目。

  • 直播观看平台:CSDN 视频号、CSDN 网站 & App

  • 多形式:文章、视频、音频都会有,持续关注 CSDN 公众号都可获取。目前《万有引力》栏目已上线小宇宙平台,欢迎大家关注!

(文:AI科技大本营)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往