AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河

采访 | 霍太稳
整理 | 宇琪
编辑 | Tina、蔡芳芳

在人工智能迈向“多模态智能体”新时代的过程中,视觉理解的超高维度、空间智能的建模难题,以及将感知、认知与行动高效整合的挑战,仍如横亘在前的巨大鸿沟。如何让智能体真正实现“看懂、想透、做好”?当前最具可行性的应用突破口是什么?

在 6 月 27-28 日于北京举办的 AICon 全球人工智能开发与应用大会上,InfoQ 现场特别专访了 IDEA 研究院计算机视觉与机器人研究中心讲席科学家张磊。他在采访中剖析了从“半结构化”场景切入的务实落地路径,分享了在工业界如何平衡前沿探索与产品落地的独到见解,并对年轻一代如何在 AI 浪潮中筑牢根基、找准方向给出了恳切建议。

部分精彩观点如下:

  • 当前整个领域面临应用发展过快、而社会大众对应用落地的预期又过于乐观的局面;

  • 必须聚焦具有实际应用意义的真问题,而非仅具论文发表价值的工作;

  • 要踏实地夯实基础能力,通过与 AI 协作,提升自己的编程广度和深度,做出 AI 还无法替代的贡献。

AICon 全球人工智能开发与应用大会将于 8 月 22-23 日首次落地深圳!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。欢迎关注,访问官网了解最新日程:https://aicon.infoq.cn/202508/shenzhen/schedule

以下内容基于采访速记整理,经不改变原意的删减。

多模态智能体的新时代
InfoQ:在实现智能体能够真正“看懂、想透、做好”的过程中,您认为哪些基础问题往往被忽视、但实际上至关重要?

张磊:“看懂”指理解输入信息,“想透”指思考过程,“做好”则是执行行动。这三者实际上涵盖了视觉、语言推理以及机器人的物理执行能力,本质上是一个典型的多模态过程,包含输入、输出及中间的思考环节。这三个环节都极具挑战性,可以说人工智能的持续发展正是围绕这三个方面推进。

过去几年,语言模型首先取得重大突破,机器人本体技术也发展迅猛——人形机器人和四足机器人都取得了显著成果,视觉技术同样进步巨大。然而,将这些环节有效整合仍是关键问题。 例如在具身智能领域,机器人常被认为缺乏“大脑”。人类大脑中有 50% 的皮层区域用于处理视觉信息,因此如果要为机器人构建“大脑”,那么一半的工作应该围绕视觉展开。视觉并不是被忽视了,而是因为它本身就非常复杂。

首先,视觉的输入维度极高,它是连续的空间信号,比如视频流;其次,它涉及对三维结构的理解,人类还具备大量与物体交互相关的通用知识。比如看到某个物体后,我们会知道应该用怎样的动作进行操作,这包括判断能否推动、能否拿起等,这些能力往往超出纯粹视觉的范畴,需要综合知识的支持。我们团队的研究方向一直聚焦于视觉领域,特别是物体层面的理解,过去几年也取得不少进展,但距离我理想中将视觉理解与机器人有效连接起来的目标,仍有大量工作要做。

我曾看到一位研究人员的观点,他提到一个关于“理解与生成是否需要统一”的问题,他认为生成同样需要理解能力。在生成模型的训练过程中,尤其是后训练阶段,往往会引入强化学习,而其中的 reward model,本质上是在判断生成内容的优劣。而判断生成质量,其实正是一种理解。因此,没有理解就无法评估生成的好坏。换句话说,生成模型训练过程中,必须依赖理解模型的辅助。这也说明理解与生成这两个问题之间并非割裂,而是深度耦合的。

InfoQ:现在很多研究者开始关注“空间智能”。在您看来,空间智能最重要的价值是什么?

张磊: 空间智能对机器人至关重要。设想机器人身处环境:首先需识别周围物体,其次判断物体距离,还需理解其结构形状以规划抓取方式。每一步都依赖强大的视觉理解能力,缺乏此能力将严重影响操作的精准度和成功率。

最近在机器人领域,有一些尝试基于端到端模型,如视觉 – 语言 – 行动模型(VLA),其研究思路是希望通过图像输入,直接决定机器人的手如何动作。然而,这类模型普遍缺乏对画面中物体的深入理解和精确定位。正因如此,当前 VLA 模型的实际操作成功率不尽如人意,远未达到实用水平。

要想在这一领域取得突破,需要研究人员不断迭代、分析问题,并逐步提升机器人的抓取和操作成功率,比如从 80% 提升至 90%,再到 95%。但即便达到 99%,在家庭场景中仍可能难以接受——想象让机器人抓取杯子,哪怕抓取 100 次掉落 1 次,已经足以导致用户退货。

空间理解本身就是一个极其复杂的问题,目前在研究领域中也尚未形成统一的建模方法。相比之下,语言模型的发展可以说是一个奇迹。语言序列化预测问题与 Transformer 架构完美契合后,主要依赖增加数据、参数和算力的工程化路径即可持续提升。自 GPT 诞生至今,其模型架构本质仍是 Transformer 的延续。而视觉领域,尤其是三维表示方法仍然没有定论。比如,对于机器人来说,我们希望它具备通用的物体理解能力,而不是只识别有限的几类物品。为了实现这种通用理解,模型该如何构建仍有争议。比如,模型内部的表征到底是用类似 token 的序列结构,还是应当嵌入三维物体的结构表示?这类问题在研究中仍有大量探讨空间。

例如斯坦福大学李飞飞教授便坚定主张:强调在世界模型中应采用三维的内部表示方式,只有这样,模型才能对问题进行正确建模,并在理解和预测上表现得更好。我认为 当前整个领域面临应用发展过快,而社会大众对应用落地的预期又过于乐观的局面。 这种乐观背后,实则需要研究人员脚踏实地,一轮轮填补技术鸿沟。

InfoQ:许多制造业企业对“AI+ 机器人”充满期待,也充满不确定性。您认为,当前最具可行性的应用突破口是什么?您是否看到一些“能规模化落地”的技术路径?

张磊: 要实现规模化落地,模型的通用能力和精准度都必须达到高水平。仅有通用性而精度不足,同样会面临巨大障碍。在此过程中,在这个过程中,虽然部分应用场景相对特定,但它们往往是传统方法难以胜任的问题。例如,当前许多机器人正尝试应用于汽车生产线的上下料环节,虽然现阶段它们的效率可能尚不及人类,但一旦能够进入这些场景,就有机会通过迭代不断优化,从而解决视觉识别、操作控制等关键问题。

这种在实际应用中进行闭环迭代的方式,是十分难得的机会。通过真实场景驱动,技术将获得有价值的进展。此外,人类危险操作或环境始终是机器人应用的理想方向。此类场景下,即使牺牲部分灵活性与智能,甚至采用遥操作结合少量智能,只要能落地应用,研究人员就有机会持续改进系统表现。

然而,要实现真正大规模通用化,例如进入家庭环境,则面临更大挑战。家庭是典型的开放场景:客厅、厨房的灶台或咖啡桌上物品往往杂乱堆放。这对人类轻而易举,但对机器人而言,要理解并清理这些物品,则是对视觉、语言推理及抓取灵活度的严峻考验。我认为这需要更长时间,可能超过 5 年。

目前,很多场景正从“结构化”走向“半结构化”。如生产线机械臂从 A 点抓取物体放置到 B 点,属于上一代技术,依赖高重复性作业。而现代产线需求多变,期望机器人能根据指令灵活操作。这种“半开放”环境介于结构化与全开放之间,为机器人技术的逐步切入提供了可行路径。

研究和产品的平衡
InfoQ:您过去在微软研究院和现在在 IDEA 研究院,都承担了大量基础研究和产品协同的工作。您如何看待工业界研究人员在“做研究”与“促落地”之间的角色定位?

张磊: 我长期在企业从事研究,有更多机会以研究员身份思考问题。我也直接指导博士生,带领他们写论文,同时我的团队也在不断尝试将研究成果应用于商业实践。在微软的经历也表明,最重要的认可就是你的研究成果真正被产品团队采用。因此,研究员在选题或评估工作价值时,常会构建一个坐标系:横轴代表研究价值,纵轴代表应用价值。最理想的状态是位于右上角——兼具研究与应用价值,而最应避免的则是左下角——既无研究价值也无应用价值。

对于工业界研究人员,务必摒弃简单的“论文思维”,研究目的不应仅为发表论文。 尽管对博士生而言,前期写论文是必要的训练过程,是提升逻辑思维和表达能力的重要手段,但在更长期的发展中,研究的目标应当更贴近实际问题的解决。研究人员需要对领域有深入理解,同时也要逐渐培养对问题的预判能力和直觉。这种直觉能帮助你判断哪些问题值得做、能做到什么程度,以及需要多长时间去实现,最终目标始终是解决实际问题。

举个例子,我们团队一直在做目标检测的研究。很多人认为,随着大模型的兴起,检测问题似乎已经解决了,但我们深知,要实现真正通用的检测与感知系统,依然面临巨大挑战。一旦突破,它将带来广泛的应用价值。我们对这个方向始终坚持不懈,持续推进。这种坚持来源于我们对问题本质的深刻理解与解决问题的强烈动机。有些问题可以通过简单的工程方法解决,而另一些问题则没有现成的方法可用,必须通过研究创新来突破。这不是为了研究而研究,而是在面对实际难题时自然产生的探索。

在微软亚洲研究院工作的十多年时间,对我也是极大的锻炼。我们需要真正理解产品团队在做什么,了解他们的痛点在哪里。当然,每个研究人员也都希望自己的工作具有一定的主导性,因此会倾向于选择那些与产品目标相符的研究方向。有时候,研究人员也可以反过来影响产品团队,比如提出一个非常有价值的新技术,然后去探索它是否能解决产品中存在的问题。这是一个双向互动的过程。实际上,很难用一个固定的范式来指导研究如何实现“右上角”的价值。这更多是一个“可遇而不可求”的过程,但如果目标是真正解决具有实际意义的应用问题,那就不应止步于“为发论文而研究”。

InfoQ:有观点认为,工业界研究者如果过于关注产品,很容易失去技术前沿性,从长远来看会削弱创新力。您是否认同这种看法?在您带领团队时,如何平衡这两者之间的关系的?

张磊: 产品开发与研究探索的节奏存在本质差异。产品周期通常以季度为单位,强调结果交付;而研究范式,尤其是在没有现成解决方案的情况下,它更像是在“无人区”中探索,是一种高度创新的过程,难以设定如“两周内必须解决”的硬性指标。

对于创新,一种是研究人员主导的高度创新型,另一种是像军队一样协调推进的产品开发型,这两者的运作节奏截然不同。将这两种人员强行混合在同一团队,往往会带来很大的痛苦,尤其是对研究人员来说更是如此。比如,每一两周就要交付、必须量化成果的节奏,会极大干扰他们的工作。研究本质上需要更开放的环境,更重要的是激发研究者内在的驱动力,让他们发自内心地去解决问题。要达到理想效果,节奏管控不宜过严,需给予研究人员探索空间。同时,也要确保他们研究的问题不脱离现实,不陷入“象牙塔”,而是和产品方向相关联。这要求管理者深刻理解两种模式,才能有效平衡二者关系。

以 OpenAI 发展为例:GPT-1、GPT-2 阶段基本是自由发散式研究,团队自身也无法预知哪条技术路径能成功。但在认识到 GPT 技术范式的巨大潜力后,内部迅速统一认知,果断调集资源集中攻关,此时研究范式便转向项目制。如今的 GPT 系列研发,更像是一种工程导向的模式,依赖迭代算力、系统架构和数据。而这种范式虽然强调工程能力,但同时也需要非常强的研究支撑,因为实验的基础依然是科学问题,只是通过工程手段不断验证和推进。

给年轻人的建议
InfoQ:对年轻研究者或工程师,您更看重哪些“底层能力”?在您看来,什么样的技术人更能在未来 AI 时代持续产生价值?

张磊: 我在深圳带领一支非常年轻的团队,平均年龄可能不到 30 岁。与团队中的年轻成员交流研究方向时,我发现不同年龄段有不同的焦虑。年轻人常担忧:“我们天天做这些工作,但没有接触大模型,会不会被淘汰?”我通常会跟他们解释,其实不是这样的。

以招聘为例,如果是我在为大模型团队挑人,我一定不会优先看他有没有大模型调参经验,而是看他是否具备扎实的计算机基础能力。这些基础能力包括对操作系统、体系结构、分布式系统的理解。例如,在大模型训练中,真正的挑战不是简单的模型调参,而是如何把上千张 GPU 卡联合起来训练,并确保系统稳定、不卡顿,这时候你对并行计算的掌握就变得至关重要。

如果你缺乏这类能力,只能在两三台机器上训练模型,那在实际项目中很可能会被具备系统能力的人取代。因为在一个快速推进的大团队中,最优先的任务往往是让千卡规模的训练稳定运行,而不是只在模型结构上做微调。有时候我会和学生或同事讲 FlashAttention 的故事。它本质上没有太高深的数学背景,只是作者非常理解 Transformer 中 attention 的计算过程,以及 GPU 架构的特性。他利用 GPU 中 L1 cache 的高速访问能力,把这部分计算效率提高了 2 到 3 倍。这种非常基础的优化,对整个领域的推动反而更大。

因此,我建议 不要停留在“调参侠”或“炼丹侠”层面——仅修改参数、运行实验,而要去思考这些实验背后的原理。比如并行计算是怎么实现的?为什么上千张 GPU 可以协同工作?如果训练变慢了,瓶颈在哪里?以 DeepSeek 的工作为例,不管是 V3 还是 R1,这些被广泛关注的成果,其实背后几乎都是系统级的突破。例如,他们如何将训练过程优化为 FP8 精度?如何让流水线并行把 GPU 的每个单元算力都榨干发挥出来?这都要求研究者对系统架构有非常深入的理解。

我给年轻人的建议是:无论你当前做的是哪一类工作,专注于把基础打牢。不要过度焦虑所谓的 35 岁危机,也不要因为没做过大模型就自我否定。只要你具备扎实的代码能力和系统理解,机会一定会出现。实际上,在我们招人时,真正有这些能力的人并不多,并不是随便具备一点经验就能胜任的。真正能把底层做扎实的人,始终是团队中最稀缺、最宝贵的。

InfoQ:AI 都可以写代码了,还要不要报考计算机专业?

张磊: 这与我的前述观点相关:所有工作都应先打好基础。对于即将报考志愿的高中毕业生,我建议优先选择基础学科专业,例如计算机科学。避免过早选择过于偏重应用的专业,因为应用方向会随时间变迁。 计算机领域自五六十年代发展至今,其底层逻辑——如 CPU/GPU 架构设计、操作系统原理——历经多轮迭代依然稳固。深入理解这些基础后,再学习人工智能会更有优势,而扎实的基础能让你走得更远。


报考志愿时不必过度焦虑人工智能带来的冲击,当前 AI 编程能力的发展,主要冲击的是从事基础编码工作的普通程序员。未来对大家的要求是成为更出色的程序员,能力需超越 AI。AI 应该成为我们的辅助工具,帮助我们编程,而不是取代我们。如果一个程序员只能写简单界面,而 AI 已经可以通过产品经理的自然语言指令生成这些界面,那他确实会被边缘化。因此,还是要踏实地夯实基础能力,通过与 AI 协作,提升自己的编程广度和深度,做出 AI 还无法替代的贡献。

(文:AI前线)

发表评论