昨晚(2025年3月18日)英伟达GTC 2025主题演讲中,CEO黄仁勋身着标志性皮衣登场,以“Agentic AI与物理AI的未来”为核心,揭示了英伟达在人工智能领域的全新战略布局与技术突破。
演讲中,黄仁勋强调“AI是终极生产力工具”,阐释了英伟达全栈技术(芯片、网络、软件)构建的生态壁垒。从生成式AI到物理AI,从液冷机柜到硅光子革命,英伟达正将数据中心变为“Token工厂”,重塑计算本质。
但昨晚的演讲在资本市场并没带来好的反向,演讲同时,英伟达股票一直在下跌状态。
以下是演讲的核心内容与关键发布:
1. GeForce RTX 5090:
– 基于Blackwell架构,体积缩小30%,能效提升30%,性能较RTX 4090翻倍。
– 支持AI驱动的DLSS 4技术,全球售罄,25年GeForce品牌历史新里程碑。
2. Blackwell Ultra:
– 5nm工艺,HBM3e显存达288GB,FP4算力15 PetaFLOPS。
– NVLink 72机柜集成72颗GPU,推理速度达每秒1000 tokens(H100的10倍),全面转向液冷技术。
3. Rubin架构预告(2026年):
– NVLink 144机柜集成144颗GPU,HBM4内存,FP4算力3.6 ExaFLOPS,2027年Ultra版算力再翻4倍。
1. AI三阶段论:
– 生成式AI:内容生成(如文本到视频)。
– 代理式AI(Agentic AI):自主推理与决策(如多步骤问题解决)。
– 物理AI:操控物理世界(机器人、自动驾驶)。
2. 推理算力需求暴增:
– 因Agentic AI需生成标记量达传统模型的100倍(如一次推理生成8000+标记),Blackwell推理性能为Hopper的40倍。
3. 物理AI落地:
– 开源Isaac Groot N1人形机器人模型,支持双系统认知(慢思考规划+快思考执行)。
– 与通用汽车合作,构建全栈自动驾驶AI系统,覆盖制造、仿真与车载AI。
1. CUDA生态进化:
– 全球600万开发者,900+加速库,新增开源工具:
– CuOpt:数学规划提速千倍,已与Gurobi、IBM合作。
– Newton物理引擎(与DeepMind、迪士尼合作):超实时触觉反馈仿真,训练效率提升10倍。
2. AI工厂操作系统Dynamo:
– 动态分配GPU算力,优化“Token吞吐量/响应速度”曲线,Blackwell工厂性能较Hopper提升25倍。
– 单机架集成60万组件,液冷技术支撑百亿亿次算力,目标“每兆瓦收入最大化”。
1. 自动驾驶与机器人:
– Omniverse数字孪生:生成合成数据,3D场景训练自动驾驶模型,缩小模拟与现实差距。
– HALOS安全架构:700万行代码安全审查,千项专利,保障车载AI可靠性。
2. 边缘与通信:
– 联合思科、T-Mobile构建AI-RAN(AI无线网络),优化5G信号处理与能耗。
– 硅光子技术突破:全球首个1.6T共封装光学(CPO),减少数据中心光模块功耗90%。
3. 企业AI革命:
– 推出DGX Spark(3000美元桌面级AI工作站),联合戴尔、惠普提供全栈企业AI方案。
– 语义存储系统:Box等合作伙伴打造“可交互存储”,直接通过自然语言检索数据。
– 2030年数据中心投资将超1万亿美元,英伟达年迭代架构(如Rubin)支撑AI普惠化。
– 机器人产业爆发:全球劳动力短缺催生“机器人年薪5万美元”市场,Isaac平台推动仓储、制造自动化。
– AI代理普及:预言“100亿数字员工与人类协同工作”,英伟达100%工程师年内启用AI编码助手。
欢迎来到GTC!真是令人惊叹的一年。
我们想在英伟达做到这一点。因此,借助人工智能的魔力,我们将带您来到英伟达的总部。我想我正在带您来到英伟达的总部,你觉得呢?这就是我们的工作场所。
这真是令人惊叹的一年。我们有很多令人难以置信的事情需要讨论。我只想让大家知道,我此刻是临场发挥的。没有预先准备的稿件,也没有提词器,而且我有很多内容需要涵盖。
那么,让我们开始吧。
首先,我要感谢所有赞助商,感谢所有参与此次会议的杰出人士。几乎所有行业都得到了代表。医疗保健行业也在场,交通运输业,零售业。哎呀,计算机行业。计算机行业的每个人都来了。看到各位真是太好了,感谢你们的赞助。
GTC始于GeForce。一切都始于GeForce。今天,我这里有一块GeForce 5090。令人难以置信的是,25年后,在我们开始研发GeForce的25年后,GeForce 5090在全球范围内售罄。
这是5090,Blackwell架构。与4090相比,其体积缩小了30%,能量耗散效率提升了30%,性能也极其出色。难以进行比较,其原因在于人工智能。
GeForce将CUDA技术带给了世界。CUDA技术促进了人工智能的发展,而人工智能如今又反过来彻底革新了计算机图形学。您所看到的这是实时的计算机图形渲染,100%基于路径追踪。对于每个渲染的像素,人工智能都会预测另外15个像素。请思考一下这一点。对于我们通过数学方法渲染的每一个像素,人工智能都推断出了另外15个像素。
它必须以极高的精度进行推断,才能使图像看起来正确,并具有时间上的准确性。这意味着,无论是向前还是向后,逐帧画面都必须保持时间上的稳定性。
人工智能取得了非凡的进步,这仅仅用了十年时间。
当然,我们讨论人工智能的时间比这更长一些,但人工智能真正进入全球公众视野大约是在十年前。起初是从感知人工智能开始,包括计算机视觉、语音识别,然后是生成式人工智能。
在过去的五年里,我们主要关注生成式人工智能,教会人工智能如何在一个模态与另一个模态之间进行转换,例如文本到图像、图像到文本、文本到视频、氨基酸到蛋白质、特性到化学物质。我们可以利用人工智能生成内容的各种不同方法。
生成式人工智能从根本上改变了计算的方式,我们从检索式计算模型转变为生成式计算模型。
过去,我们几乎所做的一切都是预先创建内容、存储多个版本,并在使用时提取我们认为合适的版本。
现在,人工智能理解上下文,理解我们的请求,理解我们请求的含义,并生成它已知的内容。如果需要,它会检索信息,增强其理解,并为我们生成答案。它不再检索数据,而是生成答案,从根本上改变了计算的方式,计算的每一层都发生了转变。
在过去的几年里,特别是最近两三年,发生了重大的突破,人工智能领域的基础性突破。我们称之为自主智能AI。
自主智能AI,从根本上说,是指具备自主性的AI,它能够感知和理解环境的上下文,能够进行推理,能够推理如何回答问题或如何解决问题,并且能够计划行动。它能够计划并采取行动,能够使用工具。
因为它现在能够理解多模态信息,所以它可以访问网站,查看网站的格式、文字和视频,甚至可以播放视频。从网站获取的信息中学习,理解这些信息,然后返回并使用这些信息,利用这些新获得的知识来完成它的任务,具有自主代理能力的人工智能。
自主代理人工智能的基础是某种非常新颖的东西——推理能力。
下一波浪潮已经到来,我们将对此进行详细讨论,即物理人工智能赋能的机器人技术,能够理解物理世界的人工智能。
它理解摩擦、惯性、因果关系和物体恒存性等概念。因此,这种理解物理世界(三维世界)的能力将开启一个我们称之为物理人工智能的新时代,并将推动机器人技术的发展。
每一个阶段,每一波浪潮,都为我们所有人开启了新的市场机遇,它为GTC吸引了更多的新合作伙伴。
结果,GTC现在人满为患。为了容纳更多GTC的参与者,我们必须扩大圣何塞的规模,我们正在努力进行中。我们有很多土地可以利用,我们必须发展圣何塞。这样我们才能让GTC……
我站在这里,希望你们都能看到我看到的景象。我们身处一个体育场馆的中央。去年是这项活动恢复线下举办的第一年,那感觉就像一场摇滚音乐会。GTC被描述为人工智能的伍德斯托克音乐节。而今年,它被描述为人工智能的超级碗。唯一的区别是,在这个超级碗上,人人都是赢家。
因此,每年都有越来越多的人参与其中,因为人工智能能够为更多行业和公司解决更有趣的问题。
今年,我们将大量讨论自主型人工智能和物理人工智能。
其核心在于,每一波、每一阶段的人工智能发展,都涉及三个基本要素。首先是如何解决数据问题?
之所以重要,是因为人工智能是一种数据驱动的计算机科学方法。它需要数据来学习,需要数字体验来学习,学习知识并获得数字体验。
第二个问题是如何解决训练问题?无需人工干预。人工干预之所以从根本上具有挑战性,是因为我们的时间有限,而我们希望人工智能能够以超人的速度学习,以超实时速度学习,并能够以人类无法企及的规模进行学习。
第三点是如何实现规模化?如何找到一种算法,使得无论提供何种资源,投入的资源越多,AI 就越智能?规模化定律。
去年,几乎全世界都错了。AI 的计算需求,其规模化定律具有更强的韧性,事实上是超加速的。由于自主智能(Agentic AI)和推理能力的缘故,我们目前所需的计算量,比去年这个时候我们预期的要多至少100倍。
让我们来分析一下为什么这是真的。首先,让我们从AI的能力入手,让我倒过来解释。如我在所述,自主智能(Agentic AI)就是推理。我们现在拥有能够进行推理的AI。
这从根本上来说是关于将问题一步一步分解的过程。它可能会尝试几种不同的方法来解决问题,并选择最佳答案。也许它会用多种方法解决同一个问题,并确保得到相同的答案,即进行一致性检查。
或者,在得出答案之后,它可能会将答案代回方程(例如二次方程)中,以确认答案的正确性。而不是仅仅直接给出答案。
还记得两年前,当我们开始使用ChatGPT时,尽管它是一个奇迹,但许多复杂的问题和许多简单的问题,它都无法正确解答。这是可以理解的。
它采用了一种“一击即中”的方式,利用其从预训练数据中学习到的知识,以及从其他经验中获得的信息(预训练数据),然后直接给出答案,就像一条鲑鱼一样(直来直去)。
现在我们拥有能够逐步推理的人工智能。使用称为“思维链”(chain of thought)、“最佳N”(best of N)、“一致性检查”(consistency checking)、多种不同路径规划以及各种不同技术,我们现在拥有能够进行推理的人工智能,将问题分解,然后进行推理,逐步进行。
那么,您可以想象,结果就是我们生成的标记数量增加了,而人工智能的基本技术仍然相同,生成下一个标记,预测下一个标记。只不过下一个标记现在构成了步骤1。
然后,在生成步骤1之后,下一个标记会将步骤1再次输入人工智能,从而生成步骤2、步骤3和步骤4。因此,它不是仅仅生成一个接一个的标记或单词,而是生成代表推理步骤的单词序列。
结果生成的标记数量大幅增加,我稍后会向您展示,轻松地达到之前的百倍。那么,百倍意味着什么?嗯,它可以生成百倍数量的标记,正如我之前解释的那样,您可以看到这种情况正在发生。或者,模型更加复杂。
它生成的标记数量是之前的十倍,为了保持模型的响应速度和交互性,避免我们因等待其思考而失去耐心,我们现在需要计算速度提高十倍。
因此,标记数量十倍,速度十倍,我们必须进行的计算量轻松地就达到了百倍。因此,您将在演示的其余部分看到,我们进行推理所需的计算量比以往大幅增加。
那么,问题就变成了,我们如何教会人工智能执行我刚才描述的操作?如何执行这种思维链?嗯,一种方法是,你必须教会人工智能如何推理。
正如我之前提到的,在训练过程中,我们必须解决两个根本性问题。数据从何而来?数据从何而来?以及如何避免其受到人工干预的限制?我们所能提供的数据和人工演示是有限的。
因此,过去几年取得的重大突破是强化学习及其可验证的结果。从根本上说,强化学习是指人工智能在逐步尝试解决问题或进行攻击的过程中进行学习。
人类历史上已经解决了许多问题,我们知道这些问题的答案。我们知道求解二次方程的公式。我们知道如何运用勾股定理,也就是直角三角形的法则。我们掌握着大量数学、几何、逻辑和科学规则。
我们可以提供各种益智游戏作为训练素材。例如数独之类的受限型问题。这类问题数不胜数,我们拥有数百种问题空间,能够生成数百万个不同的示例。
通过强化学习,给予人工智能在逐步解决问题过程中做得越来越好的奖励,并使其拥有数百次机会。因此,我们使用了数百个不同的主题、数百万个不同的示例和数百次的尝试。每次尝试都会生成数万个标记。将所有这些加起来,我们谈论的是数万亿个标记,用于训练该模型。
现在,借助强化学习,我们能够生成海量标记。这基本上是利用一种机器人式的方法来训练AI,即合成数据生成。这两者的结合给业界带来了巨大的计算挑战。
而且您可以看到,业界正在做出回应。我接下来将向您展示的是四大云服务提供商的Hopper服务器出货量。四大云服务提供商,拥有公有云的那些提供商:亚马逊、Azure、GCP 和 OCI。
四大云服务提供商,不包括人工智能公司,不包括所有初创企业,不包括企业内部部署。许多其他方面均未包含在内,只有那四个。
只是为了让您了解一下霍珀的巅峰年份和布莱克威尔的起始年份的对比。霍珀的巅峰年份和布莱克威尔的起始年份,这样您就能看出,事实上,人工智能正在经历一个拐点。它变得更有用,因为它更聪明了,它能够进行推理,它被更多地使用了。
你可以看出它被更多地使用了,因为现在无论何时你使用ChatGPT,似乎都需要等待越来越久。这是一件好事,这表明很多人都在使用它,并且效果显著。训练这些模型和进行模型推理所需的计算量已大幅增长。
因此,仅仅一年时间,而Blackwell才刚刚开始发货,就能看到人工智能基础设施的惊人增长。
这反映了整个行业的计算能力提升。我们现在看到的是——紫色部分是分析师对未来全球数据中心资本支出的预测,包括云服务提供商(CSP)、企业等等。全球数据中心在未来十年内的发展,也就是到2030年。
我之前说过,我预计数据中心建设投资将达到一万亿美元,而且我相当肯定我们很快就会达到这个数字。
两种动态同时发生。第一种动态是,绝大部分增长可能会加速。这意味着我们已经知道一段时间了,通用计算已经走到尽头,我们需要一种新的计算方法。全世界正在经历一场平台转变,从运行在通用计算机上的手工编码软件转向运行在加速器和GPU上的机器学习软件。这种计算方式目前已经过了临界点。
我们现在正看到拐点正在出现,全球数据中心建设中正在发生拐点。
因此,首先是计算方式的转变。其次是人们越来越认识到,软件的未来需要资本投入。这是一个非常重要的概念。在过去,我们编写软件并在计算机上运行它,而在未来,计算机将为软件生成Token。
因此,计算机已成为Token的生成器,而非文件的检索工具。从基于检索的计算转变为基于生成的计算,从旧式数据中心构建方式转变为构建新型基础设施的新方式,我称之为“AI工厂”。
因为它只有一个任务,那就是生成这些令人难以置信的Token,然后我们将这些Token重构为音乐、文字、视频、研究成果、化学物质或蛋白质。我们将其重构为各种类型的信息。因此,世界正在经历一场转型,这不仅体现在将要建设的数据中心数量上,也体现在其建设方式上。
数据中心中的所有内容都将被加速,但并非所有内容都与人工智能相关。
这张幻灯片是我最喜欢的。多年来参加GTC的各位,一直在听我谈论这些库。这张幻灯片正是GTC的核心所在。事实上,很久以前,20年前,这就是我们唯一拥有的幻灯片:一个又一个的库,层层叠叠。
我们不能仅仅加速软件,正如我们需要一个AI框架来创建AI,并加速AI框架一样。你需要物理学、生物学、多物理场以及各种量子物理学的框架。
你需要各种库和框架。我们称它们为CUDAx库,针对这些科学领域的加速框架。
第一个就令人难以置信。这就是cuPy数值计算库。NumPy是全球下载量和使用量最大的Python库。去年下载量达4亿次。
cuLitho和cuPy数值计算库是对NumPy的零改动加速替代方案。因此,如果您正在使用NumPy,请尝试使用cuPy数值计算库,您一定会喜欢它。
cuLitho是一个计算光刻库。在四年时间里,我们已经完成了整个计算光刻处理流程,这相当于晶圆厂中的第二个工厂。
一个工厂制造晶圆,另一个工厂制造制造晶圆所需的信息。
未来,每个行业、每家拥有工厂的公司都将拥有两个工厂,一个工厂用于制造产品,另一个工厂用于处理数学计算,另一个工厂用于人工智能。
汽车工厂,以及用于汽车的人工智能工厂。智能音箱的制造工厂,以及用于智能音箱的AI工厂。
我们的计算光刻技术cuLitho,台积电(TSMC)、三星(Samsung)、ASML,以及我们的合作伙伴Synopsys、Mentor,都给予了令人难以置信的支持。我认为这已经达到了临界点。
再过五年,每一张掩模版,每一项光刻工艺都将在NVIDIA CUDA上进行处理。
Arial是我们的5G库,它将GPU转变为5G无线电。为什么不呢?信号处理是我们非常擅长的事情。
一旦我们做到这一点,我们就可以在其上叠加AI。用于无线接入网的AI,或者我们称之为AI-RAN。下一代无线网络将深度嵌入AI。
为什么我们会受到信息论限制的约束?因为我们所能获取的信息频谱是有限的,即使加入人工智能也无法改变这一事实。
CuOpt,数值或数学优化,几乎每个行业在规划座位和航班时都会用到它,库存和客户,工人和工厂,司机和乘客,等等。
我们面临多个约束条件,以及大量的变量。并且你正在针对时间、利润、服务质量、资源利用率等等进行优化。英伟达将其用于供应链管理。
CuOpt是一个令人难以置信的库。它将原本需要数小时才能完成的任务缩短至几秒钟, 这之所以意义重大,是因为我们现在可以探索更大的空间。
我们宣布将开源CuOpt, 几乎每个人都在使用Gurobi、IBM CPLEX或FICO。我们正在与这三家公司合作。行业对此非常兴奋。我们即将极大地加速该行业的发展。
Parabricks用于基因测序和基因分析。MONI是世界领先的医学影像库。Earth2,用于预测超高分辨率局部天气的多物理场模拟软件。
然后,如果我将其转换为,本质上是您的总拥有成本(TCO),即功率在上,每单位功率在下,下面是曲线下方的面积,也就是曲线下的正方形,它基本上是浮点运算次数乘以带宽。
所以,衡量您的AI工厂是否取得进展的一个非常简单的直觉检验方法是,用瓦特数除以那些数字。您可以看到,Rubin将大幅降低成本。这就是英伟达的路线图,非常简短。一年一次,像钟表一样精确。一年一次。
我们如何进行规模化扩展?我们引入了,我们正在准备进行横向扩展。那是规模扩展,使用了NVLink技术。我们的规模扩展网络是InfiniBand和Spectrum X。
大多数人都很惊讶我们进入了以太网领域。我们决定使用以太网的原因是,如果我们能够帮助以太网达到InfiniBand的性能,拥有InfiniBand的特性,那么网络本身将更容易被所有人使用和管理。
因此,我们决定投资Spectrum,我们称之为Spectrum X,并将拥塞控制、极低延迟和作为我们计算结构一部分的少量软件的特性融入其中。结果,我们使Spectrum X的性能极其出色。
我们使用Spectrum X构建了有史以来最大的单一GPU集群,作为一个巨大的集群。这就是Colossus(巨型计算机系统)。还有许多其他的例子。Spectrum X无疑对我们来说是一个巨大的成功。
我非常期待的一个领域是,最大的企业网络公司将采用Spectrum X并将其集成到其产品线中,以便帮助全球企业成为人工智能公司。
我们在CX7上拥有10万个用户。现在CX8即将推出,CX9也即将推出。
在Rubin任职期间,我们希望将GPU数量扩展到数十万个。现在,将GPU扩展到数十万个面临的挑战在于扩展连接。扩展连接使用的是铜缆。我们应该尽可能地使用铜缆。
这大约是一到两米左右的距离。这提供了令人难以置信的良好连接性、非常高的可靠性、非常好的能源效率以及非常低的成本。
因此,我们在扩展中尽可能多地使用铜缆。然而,在横向扩展场景下,数据中心如今已如同体育场般巨大,我们需要一种更长距离运行的解决方案。这就是硅光子学发挥作用的地方。
硅光子学的挑战在于其收发器功耗巨大。从电信号到光信号的转换需要经过串行-并行转换器(SerDes)、收发器以及多个串行-并行转换器。
好,让我们把它投影到屏幕上,这样我可以向大家展示我正在讨论的内容。好的,首先,我们宣布英伟达首个采用共封装光子系统的方案。它是全球首个1.6太比特每秒的共封装光学器件(CPO)。
它基于一种名为微环谐振器调制器(MRM)的技术。并且它完全采用我们与台积电(TSMC)合作已久,令人难以置信的工艺技术构建而成。我们与庞大的技术提供商生态系统合作,共同发明了即将向您展示的技术。这真的是一项令人难以置信的技术,极其令人难以置信的技术。
我们之所以决定投资微环谐振器调制器(MRM),是为了利用MRM令人难以置信的密度和功耗优势,其密度和功耗比用于电信的马赫曾德尔干涉仪(Moxander)更好,后者用于电信中数据中心之间的通信。
甚至在我们使用的收发器中,我们也使用马赫曾德尔干涉仪(Moxander),因为到目前为止,密度要求并不高。
所以,如果您看看这些收发器,这是一个收发器的例子。这是一个插头,功率是30瓦,大量购买价格是1000美元。
此侧为电源接口,此侧为光纤接口。光信号通过黄色接口输入。您将此插头插入交换机。其中包含收发器、激光器,并采用名为Moxander的技术。
我们使用它将数据从GPU传输到交换机,再到下一个交换机。然后是下一个交换机,再下一个交换机,例如连接到GPU。因此,如果我们有10万个GPU,我们这边就会有10万个这样的组件,然后是另外10万个组件,用于连接交换机与交换机。然后在另一侧,我将其归因于另一个网卡(NIC)。
如果我们有25万个GPU,我们将增加一层交换机。因此,每个GPU,所有25万个GPU,每个GPU将有六个收发器,每个GPU将有六个这样的插头。
这六个插头每个GPU将增加180瓦的功耗,每个GPU 180瓦,每个GPU 6000美元的成本。所以问题是,我们如何将规模扩大到数百万个GPU?因为如果我们有100万个GPU乘以6,那就是600万个收发器乘以30瓦,也就是1.8亿瓦的收发器功耗。它们没有进行任何计算,只是移动信号。
因此,问题在于,我们如何,我们能够如何负担得起,正如我之前提到的,能源是我们最重要的商品。最终一切事物都与能源相关,因此这将通过减少180兆瓦的电力来限制我们的收入和客户的收入。
因此,这是我们所做的令人惊奇的事情。我们发明了世界上第一台微镜MRM,这就是它的样子。
那里有一个小的波导,您可以在波导上看到,它通向一个环,该环产生共振,并控制波导在绕行时的反射率,从而限制和调制能量,即通过的光量。它通过吸收光来关闭它,或者让它通过。它将这种直接的连续激光束转换为1和0。这就是奇迹。
然后,这项技术——光子集成电路——与电子集成电路堆叠在一起,然后与一堆微透镜堆叠在一起,再与称为光纤阵列的东西堆叠在一起。
这些部件都是使用台积电的这项技术(他们称之为COOP)制造的,并使用3D COAS技术进行封装,并与所有这些技术提供商(我之前刚刚展示过它们的名字)合作,最终将其转变为这台令人难以置信的机器。那么让我们来看一下这段视频。
这简直是一项技术奇迹。它们变成了这些交换机,我们的 InfiniBand 交换机,硅芯片运行状况极佳。今年下半年我们将交付硅光交换机,明年下半年我们将交付 Spectrum X。
得益于 MRM 的选择,得益于我们在过去五年中承担的令人难以置信的技术风险,我们申请了数百项专利,并将技术授权给我们的合作伙伴,以便我们都能制造它们,现在我们能够将硅光子技术与共封装选项相结合,无需收发器,光纤直接连接到我们的交换机,基数为 512。这就是 512 个端口。任何其他方法都根本无法做到这一点。
因此,这使我们能够扩展到这些拥有数十万甚至数百万个 GPU 的系统。其益处,您可以想象一下,令人难以置信。在数据中心,我们可以节省数千万瓦的电力。假设是十兆瓦,或者说六十兆瓦。六兆瓦相当于十个Rubin Ultra机架。
六十兆瓦的电力相当可观。我们现在可以将一百个Rubin Ultra机架的电力部署到Rubin系统中。
我们的路线图是:每年进行一次架构更新,每两年进行一次整体架构升级,每年推出一条新的产品线,实现X因素的提升。
我们尝试逐步承担硅片、网络或系统机箱的风险,以便在追求这些令人难以置信的技术时,能够推动行业向前发展。
薇拉·鲁宾,我非常感谢她的孙辈们来到这里。这是我们认可她并为她所做出的杰出工作致敬的机会。我们下一代产品将以费曼命名。
接下来是英伟达的路线图。让我来和您谈谈企业计算,这非常重要。
为了将人工智能带入全球企业,我们首先需要转向英伟达的不同部门。高斯散点图的美妙之处。
为了将人工智能带入企业,让我们退一步,提醒自己这一点。请记住,人工智能和机器学习已经彻底重塑了整个计算堆栈。
处理器不同了,操作系统不同了,顶层的应用程序也不同了。应用程序的运行方式不同,编排方式不同,执行方式也均不同。
举一个例子,您访问数据的方式将与过去 fundamentally 不同。未来,我们不会再精确地检索所需数据,然后阅读并尝试理解它,而是会像使用Perplexity那样进行操作。我们不再那样检索信息,而是直接向Perplexity提出我的问题,提问,然后它会给出答案。
未来,企业IT也将采用这种方式运作。
我们将拥有作为数字劳动力一部分的AI代理。全球有数十亿知识型员工,未来可能会有100亿数字员工与我们并肩工作。未来,全球3000万软件工程师中的100%都将借助AI辅助工具。
我对此深信不疑。到今年年底,英伟达100%的软件工程师都将借助AI辅助工具。因此,人工智能代理将无处不在。它们的运行方式、企业的运行方式以及我们的运行方式都将发生根本性的改变。
所以我们需要新一代的计算机。这才是个人电脑应有的样子:20 petaflops(千万亿次浮点运算),令人难以置信。72个CPU核心,芯片间接口,高带宽内存(HBM),此外,还有一些PCI Express插槽用于您的GeForce显卡。这叫做DGX Station。
DGX Spark和DGX Station将由所有原始设备制造商(OEM)提供,包括惠普、戴尔、联想、华硕。它将面向全球的数据科学家和研究人员生产。这是人工智能时代的计算机,这就是计算机应该的样子,这也是未来计算机的运行方式。
我们现在为企业提供了一整套产品线。
我们提供从小型机到工作站、服务器,再到超级计算机的各类产品。
这些产品将由我们所有的合作伙伴提供。我们还将彻底革新其余的计算架构。
请记住,计算具有三大支柱,其一是计算本身,而你们正在见证它的发展。其二是网络,正如我之前提到的,Spectrum X 将面向全球企业,构建一个人工智能网络。
第三是存储。存储必须彻底重新设计,它将不再是基于检索的存储系统,而是一个基于语义的存储系统。因此,该存储系统必须持续不断地将信息嵌入到后台。它接收原始数据,将其嵌入到知识中,然后当您访问它时,您无需检索它,而只需与它进行交互。你可以向它提问,也可以给它提出问题。
其中一个例子是Box公司的Aaron,他甚至将其上传到云端,并与我们合作将其上传到云端。它基本上是一个超级智能的存储系统。未来,每个企业都将拥有这样的系统。这就是未来的企业存储。
我们正在与整个存储行业合作,他们都是非常棒的合作伙伴,包括DDN、戴尔、惠普企业、日立、IBM、NetApp、Nutanix、Pure Storage、Vast和Weka。
基本上,全球整个存储行业都将提供这一技术栈。首次,您的存储系统将实现GPU加速。
戴尔将提供全系列的英伟达企业级IT人工智能基础设施系统以及在其上运行的所有软件。因此,您可以看到我们正在彻底变革全球企业。
我们今天还宣布了这款令人难以置信的模型,每个人都可以运行。此前我向您展示了R1,一个推理模型。我将它与Llama 3(一个非推理模型)进行了比较。很明显,R1要聪明得多。
但我们还可以做得更好,我们可以使其成为任何公司都可用的企业级产品。现在它完全开源,是我们称之为NIMS的系统的一部分。
您可以下载它,可以在任何地方运行它。您可以在DGX Spark上运行它。您可以在DGX Station上运行它。您可以在原始设备制造商(OEM)生产的任何服务器上运行它。您可以在云端运行它。您可将其集成到您的任何自主智能(Agentic AI)框架中。我们正与世界各地的公司合作。
我将快速浏览这些内容,请仔细观看。我想感谢一些在座的优秀合作伙伴。
埃森哲,朱莉·斯威特和她的团队正在构建他们的AI工厂和AI框架。Amdocs,全球最大的电信软件公司。
AT&T公司,John Stanky及其团队正在构建一个AT&T人工智能系统,一个具有自主代理能力的系统。Larry Fink和贝莱德团队正在构建他们的系统。未来,Anyrood公司不仅会招聘ASIC设计人员,还会招聘大量来自Anyrood Cadence的数字ASIC设计人员来帮助我们设计芯片。因此,Cadence公司正在构建其人工智能框架。
正如您所看到的,在每一个系统中,都集成了NVIDIA模型、NVIDIA NIMS和NVIDIA库。因此,您可以将其在本地、云端或任何云平台上运行。Capital One,一家在技术应用方面最为先进的金融服务公司,广泛使用了NVIDIA的技术。德勤公司,Jason及其团队。ENY公司,Janet及其团队。纳斯达克公司,Dina及其团队。将英伟达技术集成到他们的AI框架中。然后是克里斯蒂安和他在SAP的团队。比尔·麦克德莫特和他在ServiceNow的团队。
首先,这是一个主题演讲,其第一张幻灯片就花了30分钟。然后所有其他幻灯片也都花了30分钟。
接下来,我们换个地方吧。我们来谈谈机器人技术。
机器人时代已经到来。机器人能够与物理世界互动并执行数字信息无法完成的任务,这是它们的优势所在。我们非常清楚地知道,世界正面临着严重的劳动力短缺。到本十年末,全世界至少将短缺5000万名工人。
我们非常乐意支付每位工人5万美元的年薪以吸引他们来工作。我们可能不得不每年支付机器人5万美元的“薪水”以使其投入工作。因此,这将是一个非常庞大的产业。
各类机器人系统层出不穷。您的基础设施将实现机器人化。仓库和工厂中将部署数十亿个摄像头。全球约有1000万到2000万家工厂。正如我之前提到的,每辆汽车实际上都是一台机器人。现在,我们正在建造通用机器人。让我向您展示我们是如何做到的。
所有移动的物体都将实现自主化。物理人工智能将赋能各类机器人,应用于各行各业。三台英伟达制造的计算机支持机器人人工智能的持续循环模拟、训练、测试和真实世界经验反馈。机器人训练需要海量数据。
互联网规模的数据提供了常识和推理能力,但机器人还需要行动和控制数据,而这些数据的获取成本很高。
利用基于英伟达Omniverse和Cosmos构建的蓝图,开发者可以生成海量多样化的合成数据,用于训练机器人的策略。
首先,在Omniverse中,开发者根据不同的领域、机器人和任务,整合真实世界的传感器数据或演示数据。然后利用Omniverse对Cosmos进行条件处理,将原始采集数据扩增为海量逼真且多样化的数据。
开发者使用Isaac Lab利用增强的数据集对机器人策略进行后期训练。并通过模仿学习克隆行为,或通过试错法以及强化学习AI反馈,让机器人学习新技能。
实验室练习与真实世界有所不同。新策略需要进行现场测试。开发者使用Omniverse进行软件和硬件在环测试,在具有真实世界环境动态、领域随机化、物理反馈和高保真传感器模拟的数字孪生体中模拟策略。
真实世界的操作需要多个机器人协同工作。Mega,一个Omniverse蓝图,允许开发者大规模测试经过后期训练的机器人策略集群。在此,富士康在一个虚拟的英伟达Blackwell生产工厂中测试异构机器人。
当机器人大脑执行其任务时,它们通过传感器模拟感知其行动的结果,然后规划下一个行动。Mega 允许开发者测试许多机器人策略,使机器人能够作为一个系统工作,无论是空间推理、导航、移动性还是灵巧性方面。
令人惊奇的事物诞生于模拟之中。今天,我们推出 NVIDIA Isaac Groot N1。Groot N1 是一个用于人形机器人的通才基础模型。它建立在合成数据生成和模拟学习的基础之上。
Groot N1 采用了一种双系统架构,用于快速和慢速思考,其灵感来自于人类认知处理的原理。慢速思考系统允许机器人感知和推理其环境和指令,并规划正确的行动。快速思考系统将计划转化为精确且连续的机器人动作。
Groot N1 的泛化能力使机器人能够轻松地操纵常见物体并协同执行多步骤序列。通过完整的合成数据生成和机器人学习流程,人形机器人开发者可以对Groot N1进行跨多种形态、任务和环境的后期训练。
全世界各个行业的开发者都在使用英伟达的三款计算机来构建下一代具身人工智能。
物理人工智能和机器人技术发展迅速。每个人都应该关注这一领域。这很可能成为所有行业中规模最大的一个。
其核心在于,我们面临着同样的挑战。正如我之前提到的,我们关注三个方面。这些问题具有系统性。
首先,如何解决数据问题?如何以及在哪里创建训练人工智能所需的数据?其次,模型架构是什么?第三,缩放损失是什么?
我们如何扩展数据、计算能力或两者兼顾,从而使人工智能越来越智能?我们该如何进行扩展?
这两个基本问题同样存在于机器人领域。在机器人领域,我们创建了一个名为Omniverse的系统,它是我们用于物理人工智能的操作系统。长期以来,你们都听我谈论过Omniverse。
我们向其中添加了两项技术。今天,我将向你们展示两件事。其一,是为了让我们能够扩展具有生成能力和能够理解物理世界的生成模型的AI。我们称之为Cosmos。
利用Omniverse来调节Cosmos,并利用Cosmos生成无限数量的环境,使我们能够创建扎实可靠的数据。这些数据扎实可靠,受我们控制,同时又具有系统性的无限性。
正如您所见,在Omniverse中,我们使用糖果色来举例说明我们如何完美地控制场景中的机器人,而Cosmos可以创建所有这些虚拟环境。
第二点,正如我们之前所讨论的,当今语言模型令人难以置信的扩展能力之一是强化学习,以及可验证的奖励。
问题是,机器人技术的可验证奖励是什么?正如我们非常清楚的那样,那就是物理定律。可验证的物理奖励。因此,我们需要一个令人难以置信的物理引擎。
嗯,大多数物理引擎的开发都有各种各样的原因,可能是为了大型机械设备而设计,也可能是为了虚拟世界、电子游戏等等而设计。
但我们需要一个专为精细、刚性和软体设计的物理引擎。该引擎的设计目标是能够训练触觉反馈、精细动作技能和执行器控制。我们需要它能够进行GPU加速,以便这些虚拟世界能够以超线性时间、超实时的方式运行,并以极快的速度训练这些AI模型。
我们还需要它与全球机器人专家都在使用的框架——MuJoCo——和谐地集成。
所以今天我们要宣布一些真正特别的东西。这是三家公司的合作成果,分别是DeepMind、迪士尼研究和英伟达,我们将其命名为Newton。让我们来看看Newton,谢谢。
你觉得新的物理引擎怎么样?你喜欢它,是吗?是的,我敢打赌。我知道。触觉反馈、刚体、柔体、仿真、超实时。你能想象刚才你所看到的一切都是实时仿真吗?未来我们将以此方式训练机器人。
顺便说一下,蓝色机器人内部有两台计算机,两台英伟达显卡。看你多聪明。是的,你很聪明。
嘿,蓝色机器人,听着。我们把它带回家怎么样?我们结束这场主题演讲吧。该吃午饭了。你准备好了吗?我们把它结束掉吧。我们还有一个公告。你表现得很好。
就站在这里。好的,很好。。
我们还有另一个令人振奋的消息。我告诉过你们,我们的机器人技术取得了巨大进展。今天,我们宣布Groot N1将开源。我想感谢各位的光临。
让我们总结一下。感谢各位参加GTC大会。我们讨论了几个方面。第一,Blackwell已全面投产,而且发展势头令人难以置信。客户需求非常旺盛。这是有充分理由的。
因为人工智能正处于一个拐点,由于推理型人工智能和代理型人工智能系统的训练,我们需要进行的人工智能计算量大幅增加。
第二,配备Dynamo的Blackwell NVLink 72的AI工厂性能是Hopper的40倍。随着人工智能的扩展,推理将在未来十年成为最重要的工作负载之一。
第三,我们已为您制定了年度路线图,以便您规划您的AI基础设施。然后,我们正在建设两到三个AI基础设施,分别面向云端的AI基础设施、面向企业的AI基础设施以及面向机器人的AI基础设施。
我们还有一个惊喜为您准备。
(文:AI先锋官)