黄仁勋GTC 2025演讲(2 万字实录):物理AI是英伟达核心方向

昨晚(2025年3月18日)英伟达GTC 2025主题演讲中,CEO黄仁勋身着标志性皮衣登场,以“Agentic AI与物理AI的未来”为核心,揭示了英伟达在人工智能领域的全新战略布局与技术突破。  

演讲中,黄仁勋强调“AI是终极生产力工具”,阐释了英伟达全栈技术(芯片、网络、软件)构建的生态壁垒。从生成式AI到物理AI,从液冷机柜到硅光子革命,英伟达正将数据中心变为“Token工厂”,重塑计算本质。

但昨晚的演讲在资本市场并没带来好的反向,演讲同时,英伟达股票一直在下跌状态。

以下是演讲的核心内容与关键发布:

一、硬件革新:Blackwell与Rubin架构

1. GeForce RTX 5090:  

   – 基于Blackwell架构,体积缩小30%,能效提升30%,性能较RTX 4090翻倍。  

   – 支持AI驱动的DLSS 4技术,全球售罄,25年GeForce品牌历史新里程碑。  

2. Blackwell Ultra:  

   – 5nm工艺,HBM3e显存达288GB,FP4算力15 PetaFLOPS。  

   – NVLink 72机柜集成72颗GPU,推理速度达每秒1000 tokens(H100的10倍),全面转向液冷技术。  

3. Rubin架构预告(2026年):  

   – NVLink 144机柜集成144颗GPU,HBM4内存,FP4算力3.6 ExaFLOPS,2027年Ultra版算力再翻4倍。  

AI技术跃迁:推理革命与物理AI

1. AI三阶段论:  

   – 生成式AI:内容生成(如文本到视频)。  

   – 代理式AI(Agentic AI):自主推理与决策(如多步骤问题解决)。  

   – 物理AI:操控物理世界(机器人、自动驾驶)。  

2. 推理算力需求暴增:  

   – 因Agentic AI需生成标记量达传统模型的100倍(如一次推理生成8000+标记),Blackwell推理性能为Hopper的40倍。  

3. 物理AI落地:  

   – 开源Isaac Groot N1人形机器人模型,支持双系统认知(慢思考规划+快思考执行)。  

   – 与通用汽车合作,构建全栈自动驾驶AI系统,覆盖制造、仿真与车载AI。  

三、软件生态与AI工厂

1. CUDA生态进化:  

   – 全球600万开发者,900+加速库,新增开源工具:  

     – CuOpt:数学规划提速千倍,已与Gurobi、IBM合作。  

     – Newton物理引擎(与DeepMind、迪士尼合作):超实时触觉反馈仿真,训练效率提升10倍。  

2. AI工厂操作系统Dynamo:  

   – 动态分配GPU算力,优化“Token吞吐量/响应速度”曲线,Blackwell工厂性能较Hopper提升25倍。  

   – 单机架集成60万组件,液冷技术支撑百亿亿次算力,目标“每兆瓦收入最大化”。  

四、行业应用与合作 

1. 自动驾驶与机器人:  

   – Omniverse数字孪生:生成合成数据,3D场景训练自动驾驶模型,缩小模拟与现实差距。  

   – HALOS安全架构:700万行代码安全审查,千项专利,保障车载AI可靠性。  

2. 边缘与通信:  

   – 联合思科、T-Mobile构建AI-RAN(AI无线网络),优化5G信号处理与能耗。  

   – 硅光子技术突破:全球首个1.6T共封装光学(CPO),减少数据中心光模块功耗90%。  

3. 企业AI革命:  

   – 推出DGX Spark(3000美元桌面级AI工作站),联合戴尔、惠普提供全栈企业AI方案。  

   – 语义存储系统:Box等合作伙伴打造“可交互存储”,直接通过自然语言检索数据。  

五、未来战略:AI工厂与规模化定律

– 2030年数据中心投资将超1万亿美元,英伟达年迭代架构(如Rubin)支撑AI普惠化。  

– 机器人产业爆发:全球劳动力短缺催生“机器人年薪5万美元”市场,Isaac平台推动仓储、制造自动化。  

– AI代理普及:预言“100亿数字员工与人类协同工作”,英伟达100%工程师年内启用AI编码助手。  

以下为全文实录

欢迎来到GTC!真是令人惊叹的一年。


我们想在英伟达做到这一点。因此,借助人工智能的魔力,我们将带您来到英伟达的总部。我想我正在带您来到英伟达的总部,你觉得呢?这就是我们的工作场所。


这真是令人惊叹的一年。我们有很多令人难以置信的事情需要讨论。我只想让大家知道,我此刻是临场发挥的。没有预先准备的稿件,也没有提词器,而且我有很多内容需要涵盖。


那么,让我们开始吧。


首先,我要感谢所有赞助商,感谢所有参与此次会议的杰出人士。几乎所有行业都得到了代表。医疗保健行业也在场,交通运输业,零售业。哎呀,计算机行业。计算机行业的每个人都来了。看到各位真是太好了,感谢你们的赞助。


GTC始于GeForce。一切都始于GeForce。今天,我这里有一块GeForce 5090。令人难以置信的是,25年后,在我们开始研发GeForce的25年后,GeForce 5090在全球范围内售罄。


这是5090,Blackwell架构。与4090相比,其体积缩小了30%,能量耗散效率提升了30%,性能也极其出色。难以进行比较,其原因在于人工智能。


GeForce将CUDA技术带给了世界。CUDA技术促进了人工智能的发展,而人工智能如今又反过来彻底革新了计算机图形学。您所看到的这是实时的计算机图形渲染,100%基于路径追踪。对于每个渲染的像素,人工智能都会预测另外15个像素。请思考一下这一点。对于我们通过数学方法渲染的每一个像素,人工智能都推断出了另外15个像素。


它必须以极高的精度进行推断,才能使图像看起来正确,并具有时间上的准确性。这意味着,无论是向前还是向后,逐帧画面都必须保持时间上的稳定性。


人工智能取得了非凡的进步,这仅仅用了十年时间。


当然,我们讨论人工智能的时间比这更长一些,但人工智能真正进入全球公众视野大约是在十年前。起初是从感知人工智能开始,包括计算机视觉、语音识别,然后是生成式人工智能。


在过去的五年里,我们主要关注生成式人工智能,教会人工智能如何在一个模态与另一个模态之间进行转换,例如文本到图像、图像到文本、文本到视频、氨基酸到蛋白质、特性到化学物质。我们可以利用人工智能生成内容的各种不同方法。


生成式人工智能从根本上改变了计算的方式,我们从检索式计算模型转变为生成式计算模型。


过去,我们几乎所做的一切都是预先创建内容、存储多个版本,并在使用时提取我们认为合适的版本。


现在,人工智能理解上下文,理解我们的请求,理解我们请求的含义,并生成它已知的内容。如果需要,它会检索信息,增强其理解,并为我们生成答案。它不再检索数据,而是生成答案,从根本上改变了计算的方式,计算的每一层都发生了转变。


在过去的几年里,特别是最近两三年,发生了重大的突破,人工智能领域的基础性突破。我们称之为自主智能AI。


自主智能AI,从根本上说,是指具备自主性的AI,它能够感知和理解环境的上下文,能够进行推理,能够推理如何回答问题或如何解决问题,并且能够计划行动。它能够计划并采取行动,能够使用工具。


因为它现在能够理解多模态信息,所以它可以访问网站,查看网站的格式、文字和视频,甚至可以播放视频。从网站获取的信息中学习,理解这些信息,然后返回并使用这些信息,利用这些新获得的知识来完成它的任务,具有自主代理能力的人工智能。


自主代理人工智能的基础是某种非常新颖的东西——推理能力。


下一波浪潮已经到来,我们将对此进行详细讨论,即物理人工智能赋能的机器人技术,能够理解物理世界的人工智能。


它理解摩擦、惯性、因果关系和物体恒存性等概念。因此,这种理解物理世界(三维世界)的能力将开启一个我们称之为物理人工智能的新时代,并将推动机器人技术的发展。


每一个阶段,每一波浪潮,都为我们所有人开启了新的市场机遇,它为GTC吸引了更多的新合作伙伴。


结果,GTC现在人满为患。为了容纳更多GTC的参与者,我们必须扩大圣何塞的规模,我们正在努力进行中。我们有很多土地可以利用,我们必须发展圣何塞。这样我们才能让GTC……


我站在这里,希望你们都能看到我看到的景象。我们身处一个体育场馆的中央。去年是这项活动恢复线下举办的第一年,那感觉就像一场摇滚音乐会。GTC被描述为人工智能的伍德斯托克音乐节。而今年,它被描述为人工智能的超级碗。唯一的区别是,在这个超级碗上,人人都是赢家。


因此,每年都有越来越多的人参与其中,因为人工智能能够为更多行业和公司解决更有趣的问题。


今年,我们将大量讨论自主型人工智能和物理人工智能。


其核心在于,每一波、每一阶段的人工智能发展,都涉及三个基本要素。首先是如何解决数据问题?


之所以重要,是因为人工智能是一种数据驱动的计算机科学方法。它需要数据来学习,需要数字体验来学习,学习知识并获得数字体验。


第二个问题是如何解决训练问题?无需人工干预。人工干预之所以从根本上具有挑战性,是因为我们的时间有限,而我们希望人工智能能够以超人的速度学习,以超实时速度学习,并能够以人类无法企及的规模进行学习。


第三点是如何实现规模化?如何找到一种算法,使得无论提供何种资源,投入的资源越多,AI 就越智能?规模化定律。


去年,几乎全世界都错了。AI 的计算需求,其规模化定律具有更强的韧性,事实上是超加速的。由于自主智能(Agentic AI)和推理能力的缘故,我们目前所需的计算量,比去年这个时候我们预期的要多至少100倍。


让我们来分析一下为什么这是真的。首先,让我们从AI的能力入手,让我倒过来解释。如我在所述,自主智能(Agentic AI)就是推理。我们现在拥有能够进行推理的AI。


这从根本上来说是关于将问题一步一步分解的过程。它可能会尝试几种不同的方法来解决问题,并选择最佳答案。也许它会用多种方法解决同一个问题,并确保得到相同的答案,即进行一致性检查。


或者,在得出答案之后,它可能会将答案代回方程(例如二次方程)中,以确认答案的正确性。而不是仅仅直接给出答案。


还记得两年前,当我们开始使用ChatGPT时,尽管它是一个奇迹,但许多复杂的问题和许多简单的问题,它都无法正确解答。这是可以理解的。


它采用了一种“一击即中”的方式,利用其从预训练数据中学习到的知识,以及从其他经验中获得的信息(预训练数据),然后直接给出答案,就像一条鲑鱼一样(直来直去)。


现在我们拥有能够逐步推理的人工智能。使用称为“思维链”(chain of thought)、“最佳N”(best of N)、“一致性检查”(consistency checking)、多种不同路径规划以及各种不同技术,我们现在拥有能够进行推理的人工智能,将问题分解,然后进行推理,逐步进行。


那么,您可以想象,结果就是我们生成的标记数量增加了,而人工智能的基本技术仍然相同,生成下一个标记,预测下一个标记。只不过下一个标记现在构成了步骤1。


然后,在生成步骤1之后,下一个标记会将步骤1再次输入人工智能,从而生成步骤2、步骤3和步骤4。因此,它不是仅仅生成一个接一个的标记或单词,而是生成代表推理步骤的单词序列。


结果生成的标记数量大幅增加,我稍后会向您展示,轻松地达到之前的百倍。那么,百倍意味着什么?嗯,它可以生成百倍数量的标记,正如我之前解释的那样,您可以看到这种情况正在发生。或者,模型更加复杂。


它生成的标记数量是之前的十倍,为了保持模型的响应速度和交互性,避免我们因等待其思考而失去耐心,我们现在需要计算速度提高十倍。


因此,标记数量十倍,速度十倍,我们必须进行的计算量轻松地就达到了百倍。因此,您将在演示的其余部分看到,我们进行推理所需的计算量比以往大幅增加。


那么,问题就变成了,我们如何教会人工智能执行我刚才描述的操作?如何执行这种思维链?嗯,一种方法是,你必须教会人工智能如何推理。


正如我之前提到的,在训练过程中,我们必须解决两个根本性问题。数据从何而来?数据从何而来?以及如何避免其受到人工干预的限制?我们所能提供的数据和人工演示是有限的。


因此,过去几年取得的重大突破是强化学习及其可验证的结果。从根本上说,强化学习是指人工智能在逐步尝试解决问题或进行攻击的过程中进行学习。


人类历史上已经解决了许多问题,我们知道这些问题的答案。我们知道求解二次方程的公式。我们知道如何运用勾股定理,也就是直角三角形的法则。我们掌握着大量数学、几何、逻辑和科学规则。


我们可以提供各种益智游戏作为训练素材。例如数独之类的受限型问题。这类问题数不胜数,我们拥有数百种问题空间,能够生成数百万个不同的示例。


通过强化学习,给予人工智能在逐步解决问题过程中做得越来越好的奖励,并使其拥有数百次机会。因此,我们使用了数百个不同的主题、数百万个不同的示例和数百次的尝试。每次尝试都会生成数万个标记。将所有这些加起来,我们谈论的是数万亿个标记,用于训练该模型。


现在,借助强化学习,我们能够生成海量标记。这基本上是利用一种机器人式的方法来训练AI,即合成数据生成。这两者的结合给业界带来了巨大的计算挑战。


而且您可以看到,业界正在做出回应。我接下来将向您展示的是四大云服务提供商的Hopper服务器出货量。四大云服务提供商,拥有公有云的那些提供商:亚马逊、Azure、GCP 和 OCI。


四大云服务提供商,不包括人工智能公司,不包括所有初创企业,不包括企业内部部署。许多其他方面均未包含在内,只有那四个。


只是为了让您了解一下霍珀的巅峰年份和布莱克威尔的起始年份的对比。霍珀的巅峰年份和布莱克威尔的起始年份,这样您就能看出,事实上,人工智能正在经历一个拐点。它变得更有用,因为它更聪明了,它能够进行推理,它被更多地使用了。


你可以看出它被更多地使用了,因为现在无论何时你使用ChatGPT,似乎都需要等待越来越久。这是一件好事,这表明很多人都在使用它,并且效果显著。训练这些模型和进行模型推理所需的计算量已大幅增长。


因此,仅仅一年时间,而Blackwell才刚刚开始发货,就能看到人工智能基础设施的惊人增长。


这反映了整个行业的计算能力提升。我们现在看到的是——紫色部分是分析师对未来全球数据中心资本支出的预测,包括云服务提供商(CSP)、企业等等。全球数据中心在未来十年内的发展,也就是到2030年。


我之前说过,我预计数据中心建设投资将达到一万亿美元,而且我相当肯定我们很快就会达到这个数字。


两种动态同时发生。第一种动态是,绝大部分增长可能会加速。这意味着我们已经知道一段时间了,通用计算已经走到尽头,我们需要一种新的计算方法。全世界正在经历一场平台转变,从运行在通用计算机上的手工编码软件转向运行在加速器和GPU上的机器学习软件。这种计算方式目前已经过了临界点。


我们现在正看到拐点正在出现,全球数据中心建设中正在发生拐点。


因此,首先是计算方式的转变。其次是人们越来越认识到,软件的未来需要资本投入。这是一个非常重要的概念。在过去,我们编写软件并在计算机上运行它,而在未来,计算机将为软件生成Token。


因此,计算机已成为Token的生成器,而非文件的检索工具。从基于检索的计算转变为基于生成的计算,从旧式数据中心构建方式转变为构建新型基础设施的新方式,我称之为“AI工厂”。


因为它只有一个任务,那就是生成这些令人难以置信的Token,然后我们将这些Token重构为音乐、文字、视频、研究成果、化学物质或蛋白质。我们将其重构为各种类型的信息。因此,世界正在经历一场转型,这不仅体现在将要建设的数据中心数量上,也体现在其建设方式上。


数据中心中的所有内容都将被加速,但并非所有内容都与人工智能相关。


这张幻灯片是我最喜欢的。多年来参加GTC的各位,一直在听我谈论这些库。这张幻灯片正是GTC的核心所在。事实上,很久以前,20年前,这就是我们唯一拥有的幻灯片:一个又一个的库,层层叠叠。


我们不能仅仅加速软件,正如我们需要一个AI框架来创建AI,并加速AI框架一样。你需要物理学、生物学、多物理场以及各种量子物理学的框架。


你需要各种库和框架。我们称它们为CUDAx库,针对这些科学领域的加速框架。


第一个就令人难以置信。这就是cuPy数值计算库。NumPy是全球下载量和使用量最大的Python库。去年下载量达4亿次。


cuLitho和cuPy数值计算库是对NumPy的零改动加速替代方案。因此,如果您正在使用NumPy,请尝试使用cuPy数值计算库,您一定会喜欢它。


cuLitho是一个计算光刻库。在四年时间里,我们已经完成了整个计算光刻处理流程,这相当于晶圆厂中的第二个工厂。


一个工厂制造晶圆,另一个工厂制造制造晶圆所需的信息。


未来,每个行业、每家拥有工厂的公司都将拥有两个工厂,一个工厂用于制造产品,另一个工厂用于处理数学计算,另一个工厂用于人工智能。


汽车工厂,以及用于汽车的人工智能工厂。智能音箱的制造工厂,以及用于智能音箱的AI工厂。


我们的计算光刻技术cuLitho,台积电(TSMC)、三星(Samsung)、ASML,以及我们的合作伙伴Synopsys、Mentor,都给予了令人难以置信的支持。我认为这已经达到了临界点。


再过五年,每一张掩模版,每一项光刻工艺都将在NVIDIA CUDA上进行处理。


Arial是我们的5G库,它将GPU转变为5G无线电。为什么不呢?信号处理是我们非常擅长的事情。


一旦我们做到这一点,我们就可以在其上叠加AI。用于无线接入网的AI,或者我们称之为AI-RAN。下一代无线网络将深度嵌入AI。 


为什么我们会受到信息论限制的约束?因为我们所能获取的信息频谱是有限的,即使加入人工智能也无法改变这一事实。


CuOpt,数值或数学优化,几乎每个行业在规划座位和航班时都会用到它,库存和客户,工人和工厂,司机和乘客,等等。


我们面临多个约束条件,以及大量的变量。并且你正在针对时间、利润、服务质量、资源利用率等等进行优化。英伟达将其用于供应链管理。


CuOpt是一个令人难以置信的库。它将原本需要数小时才能完成的任务缩短至几秒钟, 这之所以意义重大,是因为我们现在可以探索更大的空间。 


我们宣布将开源CuOpt, 几乎每个人都在使用Gurobi、IBM CPLEX或FICO。我们正在与这三家公司合作。行业对此非常兴奋。我们即将极大地加速该行业的发展。


Parabricks用于基因测序和基因分析。MONI是世界领先的医学影像库。Earth2,用于预测超高分辨率局部天气的多物理场模拟软件。


量子计算(Q-Quantum)和量子到量子(Q2Q)技术。我们将在GTC举办首届量子计算日。我们正与生态系统中的几乎所有参与者合作。

我们协助他们进行量子架构、量子算法的研究,或构建经典加速的量子异构架构。因此,那里的工作令人兴奋。

量子等变性(Q-equivariance)和量子张量(Q-tensor)用于张量收缩和量子化学计算。

当然,这个软件栈享誉全球。人们认为只有一种名为CUDA的软件,但事实上,在CUDA之上还有许多库,这些库集成到生态系统、软件和基础设施的所有不同部分,以实现人工智能。

我今天要宣布一个新的成果, CUDSS,我们的稀疏求解器,对于计算机辅助工程(CAE)至关重要。 

这是过去一年中最重要的突破之一。通过与Cadence、Synopsys、Ansys和达索系统等所有系统公司合作,我们现在已经实现了几乎所有重要的EDA和CAE库的加速。

令人惊奇的是,直到最近,英伟达仍在使用通用计算机运行软件,速度非常慢,来为其他人设计加速计算机。原因是直到最近,我们才拥有针对CUDA优化的软件,即那套软件。因此,随着我们转向加速计算,整个行业都将得到极大的提升。

CUDF,一个用于结构化数据的DataFrame,我们现在拥有对Spark和Pandas的即插即用式加速功能。

我们还有Warp,一个在Python中运行的用于物理学的CUDA库。我们对此有一个重大宣布,我稍后再详细说明。这只是能够实现加速计算的库的示例。

这不仅仅是CUDA,我们为CUDA感到自豪,但如果没有CUDA以及我们庞大的安装基础,这些库对任何使用它们的开发者来说都将毫无用处。

对于所有使用这些库的开发者而言,你们之所以使用它们,首先是因为它能够极大地提高速度,它能够极大地提高规模。

其次,因为CUDA的安装基础现在已遍布全球。它存在于每一个云平台、每一个数据中心,全球每一家计算机公司都提供它,它几乎无处不在。因此,通过使用这些库中的一个,你们的软件,你们令人惊叹的软件,能够触及每个人。

所以我们现在已经达到了加速计算的临界点。CUDA 使这一切成为可能。各位,这就是GTC的意义所在,生态系统,是你们所有人成就了这一切。因此,我们为您制作了一段简短的视频。

谢谢,致未来的创造者、先驱者和建设者,CUDA 是为你们而生的。自2006年以来,超过200个国家的600万开发者使用了CUDA,并彻底改变了计算方式。

借助900多个CUDAx库和人工智能模型,您正在加速科学发展,重塑产业格局,并赋予机器感知、学习和推理的能力。现在,NVIDIA Blackwell的速度比第一代CUDA GPU快50,000倍。

这些数量级的速度和规模提升正在缩小仿真与实时数字孪生之间的差距。对您而言,这仅仅是一个开始。我们迫不及待地想看到你们的下一个成就。

我热爱我们所做的一切。我更欣赏你们对它的运用。在我从事这项工作33年里,最令我感动的一件事是一位科学家对我说:“詹森,因为你的工作,我可以在有生之年完成我毕生的工作。”如果这都不能触动你,那你一定是个没有感情的人。所以这一切都是为了你们。谢谢。

好吧,接下来我们谈谈人工智能。

但是,你们知道,人工智能起源于云端。它起源于云端是有原因的,因为事实证明人工智能需要基础设施。它是机器学习。如果科学证明是机器学习,那么就需要一台机器来进行科学研究。

因此,机器学习需要基础设施,而云数据中心拥有这种基础设施。它们还拥有非凡的计算机科学实力和卓越的研究能力,构成了人工智能在云端和云服务提供商(CSP)中蓬勃发展的理想环境。

但人工智能并非仅限于此。人工智能将无处不在。我们将从许多不同的角度探讨人工智能。当然,云服务提供商青睐我们的领先技术。

他们欣赏我们拥有完整的技术栈,因为正如我之前解释的那样,加速计算不仅仅关乎芯片本身,甚至不仅仅是芯片和库,以及编程模型。它包括芯片、编程模型以及在其之上运行的众多软件。整个技术栈都极其复杂,每一层,每一个库,本质上都类似于SQL。

SQL,正如您所知,被称为存储内计算,是IBM引领的计算领域的一次重大革命。SQL只是一个库,试想一下。我刚刚向您展示了大量的库,而且在人工智能领域,还有更多库。所以,这个技术栈非常复杂。

他们也喜欢这样一个事实:云服务提供商(CSP)喜欢英伟达CUDA开发者也是他们的客户。因为最终,他们正在构建供全世界使用的基础设施。因此,丰富的开发者生态系统受到了高度重视,并得到了深深的赞赏。

既然我们要将人工智能推广到世界其他地区,那么世界其他地区就会存在不同的系统配置、运行环境差异、特定领域的库差异以及使用差异。

因此,人工智能在应用于企业 IT、制造业、机器人技术或自动驾驶汽车,甚至是在构建 GPU 云的公司中,都会有所不同。

在英伟达时期,大约有[20]家公司成立,他们只做一件事:他们托管 GPU。他们称自己为 GPU 云。

我们的一位重要合作伙伴 CoreWeave 正在上市过程中,我们为此感到非常自豪。因此,GPU 云有其自身的要求。

但令我非常兴奋的一个领域是边缘计算。

今天,我们宣布思科、英伟达、T-Mobile(全球最大的电信公司)和 Cerberus ODC 将在美国建立一个用于无线网络的完整技术栈,这就是第二个技术栈。

因此,我们今天宣布的这个当前技术栈将把人工智能部署到边缘。请记住,全球每年有1000亿美元的资本投资用于无线网络,以及所有为通信提供服务的数据中心。

未来,在我看来,毫无疑问,这将是融合了人工智能的加速计算。

人工智能将在适应无线电信号、大规模MIMO(多输入多输出)系统变化的环境和交通状况方面做得更好得多。

当然可以。当然我们会使用强化学习来做到这一点。当然,MIMO 本质上就是一个巨大的无线电机器人。当然是的。因此,我们当然会提供这些功能。

当然,人工智能可以彻底改变通信方式。你知道,当我打电话回家时,不需要说很多话,因为我妻子知道我在哪里工作,工作环境如何。谈话可以从昨天继续进行。她多少记得我喜欢什么,不喜欢什么。

很多时候,只需要几句话,就能沟通很多信息。原因在于上下文和人类先验知识。结合这些功能,可以彻底改变通信方式。

看一下它对视频处理的影响。看一下我之前描述的3D图形技术。因此,我们当然也会对Edge采取同样的做法。

所以我对我们今天宣布的消息感到非常兴奋。T-Mobile、思科、英伟达、Cerberus和ODC将构建一个完整的技术栈。嗯,人工智能将渗透到各个行业。

这只是一个例子,人工智能进入最早的行业之一是自动驾驶汽车领域。当我们看到AlexNet的那一刻,我们长期以来一直在从事计算机视觉的研究,看到AlexNet的那一刻是如此令人鼓舞、如此令人兴奋,这促使我们决定全力投入自动驾驶汽车的研发。

所以我们现在已经在自动驾驶汽车领域工作了十多年。我们开发的技术几乎被每一家自动驾驶汽车公司都在使用。

它可以位于数据中心,例如,特斯拉在其数据中心大量使用英伟达GPU,这可能位于数据中心或车辆中,Waymo和Wave也将其数据中心和车辆中使用英伟达的计算机。

它可能只在车辆中,这种情况非常罕见,但有时它只在车辆中。或者他们还会使用我们所有的软件。我们与汽车行业合作,合作方式取决于汽车行业的需求。

我们制造所有三种计算机:训练计算机、仿真计算机和机器人计算机(自动驾驶汽车计算机)。

以及位于其之上的所有软件栈,包括模型和算法,这与我们为其他所有已展示的行业提供的服务相同。

因此,今天,我非常高兴地宣布,通用汽车公司已选择英伟达作为其未来自动驾驶汽车车队的合作伙伴,自动驾驶汽车的时代已经到来

我们期待在所有三个领域与通用汽车人工智能公司合作。用于制造业的人工智能,以便彻底改变他们的制造方式。

用于企业的人工智能,以便彻底改变他们的工作方式。设计汽车和模拟汽车。以及车载人工智能。

因此,为通用汽车打造人工智能基础设施,与通用汽车合作,并与他们一起构建其人工智能。我对此感到非常兴奋。

我深感自豪的领域之一,而且很少受到关注,那就是安全。汽车安全。它被称为HALOS。

在我们公司,它被称为HALOS。安全需要从硅到系统、系统软件、算法、方法论等各个方面的技术,从确保多样性到多样性监控和透明性、可解释性,所有这些都包括在内,所有这些不同的理念都必须深深融入到您开发系统和软件的每一个环节中。

我相信,我们是世界上第一家对每一行代码都进行安全评估的公司。七百万行代码都经过了安全评估。

我们的芯片、系统、系统软件和算法都经过了第三方的安全评估,他们会仔细检查每一行代码,以确保其设计能够保障多样性、透明度和可解释性。我们还提交了超过一千项专利申请。

在此次GTC期间,我强烈建议您抽出时间参加HALOS研讨会,以便了解确保未来汽车安全和自主驾驶所需的所有不同方面。我对此感到非常自豪,但它很少受到关注,所以我认为这次应该花更多时间来谈论它。英伟达HALOS。

你们都见过自动驾驶汽车。Waymo自动驾驶出租车令人难以置信。我们制作了一个视频,与大家分享我们用于解决数据、训练和多样性问题的部分技术,以便利用人工智能的魔力来创造人工智能。

让我们来看一看。英伟达正在通过Omniverse和Cosmos加速自动驾驶汽车的人工智能开发。

Cosmos的预测和推理能力支持基于人工智能的自动驾驶系统,这些系统采用端到端训练方法,包括新的开发方法、模型蒸馏、闭环训练和合成数据生成。

首先,模型蒸馏。Cosmos的驾驶知识,作为策略模型,从较慢、更智能的教师模型转移到车载更小、更快的学生模型中。

教师策略模型展示了学生模型通过迭代学习所遵循的最佳轨迹,直至其性能几乎达到与教师相同的水平。蒸馏过程能够引导策略模型的建立,但复杂场景需要进一步微调。

闭环训练能够对策略模型进行精细调整。利用Omniverse神经重建技术,将日志数据转换为用于物理基础模拟闭环的3D场景。创建这些场景的变体,以测试模型的轨迹生成能力。

Cosmos行为评估器随后可以对生成的驾驶行为进行评分,以衡量模型性能。新生成的场景及其评估创建了一个用于闭环训练的大型数据集,帮助自动驾驶汽车更稳健地应对复杂场景。

最后,3D合成数据生成增强了自动驾驶汽车对不同环境的适应性。Omniverse从日志数据中,通过融合地图和图像构建详细的4D驾驶环境,并生成真实世界的数字孪生体,包括语义分割,以通过对每个像素进行分类来指导Cosmos。然后,Cosmos通过生成准确且多样化的场景来扩展训练数据,缩小模拟与现实之间的差距。

Omniverse和Cosmos使自动驾驶汽车能够学习、适应并智能驾驶,从而提升出行安全。英伟达是完成这项工作的理想公司。

这就是我们的命运:利用人工智能来重塑人工智能。我们向您展示的技术与您正在享用的技术非常相似,带您进入数字孪生世界,我们称之为英伟达。

让我们谈谈数据中心。布莱克韦尔项目已全面投产,这就是它的样子。

这令人难以置信,对人们而言,这是一种美的景象。这意义重大,因为我们在计算机架构方面实现了根本性的转变。

大约三年前,我曾向你们展示过这个版本的系统,它被称为Grace·Hooper,系统被称为Ranger。

Ranger系统大概只有屏幕宽度的一半,它是全球首个NVLink 32系统。三年前,我们展示了Ranger的运行情况,当时它过于庞大,但其理念完全正确。

我们当时试图解决规模扩展问题。分布式计算是利用许多不同的计算机协同工作来解决一个非常大的问题。

但在横向扩展之前,纵向扩展是不可替代的。两者都很重要,但应该优先进行纵向扩展,然后再进行横向扩展。

然而,纵向扩展极其困难,并没有简单的答案。你不会像Hadoop那样进行纵向扩展或横向扩展。Hadoop的做法是,采用大量商用计算机,将其连接到大型网络中,并使用其进行存储计算。

Hadoop 的理念具有革命性意义,这一点我们都很清楚。它使得超大规模数据中心能够利用现成的计算机解决海量数据问题。然而,我们试图解决的问题极其复杂,以这种方式进行扩展的成本将高得令人难以承受,无论是电力成本还是能源成本。深度学习根本不可能出现。

因此,我们必须首先进行垂直扩展。这就是我们进行垂直扩展的方式。

这是上一代系统架构,被称为 HGX。这彻底改变了我们所知的计算技术,也彻底改变了人工智能。

这是八个GPU,每一个都类似于这个。这是两个GPU,一个Blackwell封装中包含两个Blackwell GPU。在这下面还有八个这样的单元。然后这连接到我们称之为NVLink 8 的部件。

然后这连接到类似这样的CPU机架。这里有两个CPU,位于顶部。我们通过PCI Express将其连接起来,然后许多这样的设备通过InfiniBand连接,最终形成一台人工智能超级计算机。过去就是这样做的,我们就是这样开始的。

这就是我们在扩展规模之前所能达到的极限。但我们希望进一步扩展规模。Ranger项目将这个系统又扩展了四倍。

因此,我们有了NVLink 32,但系统规模过于庞大。为此,我们不得不进行一些重要的重新设计,包括NVLink的工作方式以及ScaleUp的工作方式。

首先,我们需要将嵌入在主板上的NVLink交换机从系统中解耦并移除。这是一个NVLink交换机,是世界上性能最高的交换机它使得每个GPU都能以满带宽在完全相同的时间与其他每个GPU进行通信。

我们将NVLink交换机解耦并移除,并将其放置在机箱的中心。在九个不同的机架中,共有18个交换机托盘(我们称之为)容纳这些交换机。交换机解耦后,计算单元现在位于别处。这相当于计算方面的两个部分。

令人称道的是,它是完全液冷的。通过液冷技术,我们可以将所有这些计算节点压缩到一个机架中,这对于整个行业而言是一项重大变革。

感谢各位,你们促成了从集成NVLink到解耦NVLink,从风冷到液冷,从每台计算机大约60,000个组件到每个机架600,000个组件的根本性转变,以及120千瓦全液冷,从而使我们能够在一个机架中拥有一个百亿亿次计算计算机。

这是计算节点,现在它可以安装到其中一个机架里。我们拥有3000磅的重量,5000根电缆,总长度约3.2公里,难以置信的电子元件,60万个零件,我想这相当于20辆汽车的零件数量,所有这些都集成到一台超级计算机中。我们的目标是大规模扩展,这就是它现在的样子。

我们本质上是想制造这个芯片,但没有任何激进的限制能够做到这一点,没有工艺技术能够做到这一点。它拥有130万亿个晶体管,其中20万亿个用于计算。因此,短期内无法合理地制造它。

解决这个问题的方法,如我所描述的,是将它分解成Grace Blackwell NVLink 72机架。最终,我们实现了终极规模的提升,这是世界有史以来最极端的规模提升。

这台机器可能的计算量和内存带宽达到了每秒570太字节。这台机器中的所有指标都达到了万亿级别。它拥有每秒一千万亿次浮点运算能力(即艾克斯浮点运算)。

我们之所以想要做到这一点,是为了解决一个极端的问题。许多人误以为这个问题很容易解决,但实际上,这是一个终极的极端计算问题,那就是推理。

推理是工厂进行的Token生成过程,而工厂本身决定着收益和利润的产生或亏损。因此,必须以极高的效率和性能来构建这个工厂,因为工厂的方方面面都直接影响着服务质量、收入和盈利能力。

现在,我来向您展示如何解读这张图表,因为我稍后还会多次回到这张图表上来。基本上,它有两个坐标轴。X 轴表示每秒Token数。每当您聊天,或者将提示输入到 ChatGPT 时,输出的结果都是Token。这些Token会被重新组合成文字。

需要注意的是,这不仅仅是一个Token对应一个单词。它们会将诸如“THG”之类的词元化,它可以指代“the”、“them”、“theory”、“theatrics”,以及其他各种词语。“THG”就是一个Token的例子。它们重新构建这些标记,使其转化为单词。

如果希望 AI 更聪明,就需要生成大量的标记。这些标记是推理标记、一致性检查标记,它们会想出很多主意,以便从中选择最好的主意和标记。这些标记可能会反复推敲,可能会思考:“这是你能做的最好的工作吗?”所以它就像我们自言自语一样,与自身对话。因此,你生成的标记越多,你的 AI 就越聪明。

但是,如果回答问题花费的时间太长,客户就不会再回来了。这与网页搜索没有什么不同。在它给出聪明答案之前,所需时间确实存在限制。因此,你需要应对这两个维度的挑战。你试图生成大量的标记,但又试图尽可能快地完成。因此,您的Token速率至关重要。所以您希望针对单个用户的每秒Token数尽可能快。

然而,在计算机科学和工厂生产中,延迟响应时间和吞吐量之间存在根本性矛盾。如果你从事大型、高吞吐量的业务,你会进行批量处理。你将大量的客户需求进行批量处理,并生产特定版本的产品供所有人稍后使用。

然而,从他们进行批量处理和生产产品的那一刻起,到您使用它为止,可能需要很长时间。计算机科学领域亦是如此,生成Token的 AI 工厂也同样如此。

所以,你面临着这两种根本性的矛盾。一方面,您希望客户的服务质量尽可能好:快速且智能的 AI。另一方面,您正试图让您的数据中心为尽可能多的人生成Token,以便最大化您的收入。

理想的答案位于右上方。理想情况下,该曲线的形状是一个正方形,您可以快速地为每个人生成Token,直到工厂的极限,但没有哪个工厂能够做到这一点。

因此,它可能是一条曲线,而您的目标是最大化曲线下的面积,即X和Y的乘积,并且您推得越远,就越有可能意味着您正在建造一个更好的工厂。

事实证明,在每秒Token数(整个工厂的每秒Token数)与响应时间之间,一个需要大量的计算能力(浮点运算),而另一个维度则需要大量的带宽和浮点运算。所以这是一个非常难以解决的问题。

好的答案是,您应该拥有大量的浮点运算能力、大量的带宽、大量的内存以及其他一切资源。这是开始的最佳答案,这也是为什么这是一台如此出色的计算机的原因。

你首先要拥有尽可能多的浮点运算能力、尽可能大的内存、尽可能高的带宽,当然还要有最好的架构和最高的能效,并且你必须拥有一个编程模型,使你能够在所有这些极其复杂的硬件上运行软件才能做到这一点。

现在让我们来看一个演示,让你对我说的是什么有一个切实的感受。请播放它。

传统的LLM捕捉基础知识,而推理模型则利用思维标记来帮助解决复杂问题。在这里,一个提示要求在婚礼餐桌旁安排座位,同时遵守一些限制条件,例如传统习俗、照片角度以及家族成员之间的矛盾。传统的LLM能够快速地给出答案,使用的标记少于500个。

它在安排宾客座位时犯了错误,而推理模型则使用了超过8000个标记进行思考,最终得出了正确的答案。这需要一位牧师来维持和平。

好吧,正如你们所知,如果你有一个300人的婚礼派对,并且你试图找到完美的,或者说最佳的座位安排,这是一个只有人工智能才能解决或者只有岳母才能解决的问题。

所以,这是协同计算无法解决的问题之一。

好,您在这里看到的是,我们给它提供了一个需要推理的问题,您看到R1会就此进行推理,尝试所有不同的场景,然后返回来检验自己的答案。它会自问是否做对了。

同时,上一代语言模型则采用一次性解决方法。因此,一次性解决方法使用了439个标记。它速度很快,效率很高,但结果是错误的。所以,这是439个被浪费的标记。

另一方面,为了对这个问题进行推理(实际上这是一个非常简单的问题,只需增加几个更难的变量,它就会变得非常难以推理),它使用了8000个,几乎9000个标记。而且它需要更多的计算,因为模型更加复杂。

好,这是一个维度。在我向您展示一些结果之前,请允许我解释其他一些内容。

因此,答案是,如果你观察Blackwell系统,现在它已经扩展到NVLink 72。我们首先要做的是处理这个模型,而这个模型并不小。

以R1为例,人们认为R1很小,但它有6800亿个参数。

下一代模型可能拥有数万亿个参数。解决这一问题的方法是将这些数万亿个参数和模型,将工作负载分布到整个GPU系统中。

可以使用张量并行,将模型的一层运行在多个GPU上;也可以取流水线的一部分,称之为流水线并行,并将其放在多个GPU上;还可以将不同的专家模型放在不同的GPU上,我们称之为专家并行。

流水线并行、张量并行和专家并行的组合方式数量庞大,令人难以置信。并且根据模型、工作负载和环境的不同,计算机的配置方式必须改变,以便获得最大的吞吐量。

有时需要优化极低的延迟,有时则需优化吞吐量,因此必须进行一些运行时批处理。批处理和聚合工作有很多不同的技术。因此,这些AI工厂的操作系统和软件极其复杂。

其中一个观察结果,也是拥有像NVLink 72这样同构架构的真正优势在于,每个GPU都能执行我刚才描述的所有操作。我们观察到这些推理模型正在进行几个计算阶段。

其中一个计算阶段是思考。当你在思考时,不会产生很多标记。你产生的标记可能你自己在使用,你在思考。也许你正在阅读,正在消化信息。

这信息可能是PDF文档,也可能是网站,甚至可以观看视频,以超线性速率吸收所有这些信息,然后将所有这些信息整合起来,形成答案,制定一个计划性的答案。

因此,信息消化和上下文处理非常依赖于浮点运算。

另一方面,在下一阶段,称为解码阶段,其第一部分我们称为预填充,解码的下一阶段需要浮点运算,但需要巨大的带宽。而且计算起来相当容易

如果你有一个模型,它有数万亿个参数,那么每秒需要几TB的数据,注意我之前提到过每秒576TB,仅仅是从HBM内存中提取模型就需要每秒TB级的数据。而且仅仅是为了生成一个标记。

它之所以只生成一个标记,是因为记住这些大型语言模型是在预测下一个标记,这就是它们预测下一个标记的原因。

它不是预测每一个标记,而只是预测下一个标记。现在我们有了各种新的技术,例如推测性解码等等,用于更快地完成这项工作,但最终,你是在预测下一个标记。

因此,你摄取、调入整个模型和上下文(我们称之为KV缓存),然后生成一个标记。然后我们将这个标记放回我们的“大脑”,生成下一个标记。每次执行此操作,我们都输入数万亿个参数,输出一个标记。

数万亿个参数输入,输出另一个标记。数万亿个参数输入,输出另一个标记。请注意,在演示中,我们输出了8600个标记。

因此,数万亿字节的信息已被输入到我们的GPU中,并一次输出一个标记。这从根本上解释了为什么需要NVLink。

NVLink使我们能够将所有这些GPU组合成一个巨大的GPU,实现最终的规模扩展。

现在所有内容都在NVLink上,我可以将预填充与解码分离,并可以决定:我想为预填充使用更多GPU,为解码使用更少GPU。

因为我正在进行大量的思考,进行一项自主性的工作,阅读大量信息。我正在进行深入的研究。

之前我一直在听迈克尔讲话,迈克尔也谈到了他正在进行的研究,而我做的也是同样的事情。我们会开展并撰写这些非常冗长的AI研究项目,我非常喜欢做这件事。

我已经为此付出了代价,我非常享受让我们的GPU运转起来。没有什么能给我带来更大的快乐。所以我在撰写完毕后,它就开始运行,进行所有这些研究,它访问了大约94个不同的网站,阅读了所有这些信息,而我也在阅读所有这些信息,然后它会形成一个答案并撰写报告。这真是令人难以置信。

在那段时间里,预填充一直非常繁忙。它并没有真正生成很多标记。另一方面,当您与聊天机器人进行对话,并且数百万人在做同样的事情时,它就需要非常大量的标记生成。解码工作量非常大。

因此,根据工作负载,我们可能会决定将更多GPU分配到解码,或者根据工作负载,将更多GPU分配到预填充。这种动态操作非常复杂。

我刚刚描述了流水线并行、张量并行、专家并行、飞行中批处理、解耦推理、工作负载管理,然后我还要处理一个叫做KV缓存的东西,我必须将其路由到正确的GPU,我必须通过所有内存层次结构来管理它。这段软件极其复杂。

因此,今天我们宣布推出英伟达Dynamo。英伟达Dynamo能够做到这一切。它本质上是AI工厂的操作系统。

在过去,在我们运行数据中心的方式中,我们的操作系统类似于VMware。我们会(而且现在仍然会),协调大量不同的企业应用程序在我们企业IT之上运行,我们也是大型用户。

但未来,应用程序并非企业IT,而是智能体。操作系统也不再是VMware之类的软件,而是Dynamo之类的软件。

而且这个操作系统运行的并非数据中心之上,而是AI工厂之上。我们将其命名为Dynamo是有充分理由的。如您所知,Dynamo是启动上次工业革命的首个动力机械。

这是能源的工业革命。水流入,电力流出,这着实神奇。

水流入,将其点燃,变成蒸汽,随后产生的便是这种无形却极其宝贵的东西。

历经八十年发展,才有了交流电,但发电机是这一切的起点,是开端。

因此,我们将这个操作系统,这套软件——极其复杂的软件——命名为英伟达发电机(NVIDIA Dynamo)。它是开源的,我们很高兴有诸多合作伙伴与我们共同开发。

我最喜欢的合作伙伴之一,我非常喜欢他,不仅因为他所做的革命性工作,还因为阿拉文德是一个非常好的人。Perplexity是我们合作攻克这一难题的重要伙伴。总之,非常好,非常好。

现在我们必须等待所有这些基础设施扩展完毕,但与此同时,我们已经进行了一系列非常深入的模拟。我们用超级计算机模拟我们的超级计算机,这很有道理。

现在我将向大家展示我刚才所说的一切的好处。记住工厂示意图。Y轴表示工厂的每秒Token吞吐量,X轴表示用户体验的每秒Token吞吐量。你需要超级智能的AI,并且需要生产大量的AI。

这是Hopper。它可以为每个用户每秒产生大约100个Token。

这使用了八个GPU,通过InfiniBand互联,我将其标准化为每兆瓦每秒的token数量。所以这是一个兆瓦级的数据中心,并非一个非常大型的AI工厂,但无论如何,它是一兆瓦的。

它可以为每个用户每秒产生100个token,并且在这个级别上,无论实际情况如何,它可以为该兆瓦级数据中心每秒产生10万个token。或者,如果进行超级批量处理,并且客户愿意等待很长时间,那么该AI工厂每秒可以产生大约250万个token,明白了吗?

记住,两百五十万,ChatGPT 的成本大约是每百万个词元10美元,对吧?每百万个词元10美元。

让我们假设一下,我认为每百万个词元10美元的成本可能比较低,但我可能会说它比较低,但让我假设它比较高,因为两百五十万乘以10,那就是每秒2500万美元。这样理解有道理吗?这就是你思考问题的方式。

或者,如果成本低得多,那么问题在于,假设是10万美元,将其除以10。每个工厂每秒25000美元。然后是3100万,一年大约有3000万秒,这就能转化为百万级,兆瓦级数据中心的营收。所以这就是您的目标。

一方面,您希望您的Token速率尽可能快,以便您可以创造真正智能的AI,如果拥有智能AI,人们就会为此支付更多费用。

另一方面,AI越智能,您所能生产的数量就越少。这是一个非常合理的权衡。这就是我们试图改变的曲线。

现在,我向您展示的是世界上最快的计算机——Hopper。它彻底改变了一切。那么,我们该如何改进它呢?

因此,我们首先提出使用NVLink 8的Blackwell架构。同样的Blackwell架构,相同的计算单元,以及使用FP8的NVLink 8计算节点。

因此,Blackwell更快了。更快、更大、更多晶体管,一切都要更多。

但我们想做的不止这些,因此我们引入了新的精度。这并不完全像4位浮点数那样简单,但使用4位浮点数,我们可以量化模型,用更少的能量做同样的事情。因此,当您使用更少的能量做同样的事情时,您可以做得更多。

因为请记住,一个重要的观点是,未来每一个数据中心都将受到电力限制。您的收入将受到电力限制。您可以根据可用的电力来计算您的收入。这与许多其他行业没有什么不同。所以我们现在是一个受电力限制的行业。我们的收入将与此相关联。

基于此,您需要确保拥有尽可能高效节能的计算架构。接下来,我们将使用 NVLink 72 进行扩展。

请看 NVLink 72 FP4 的差异,由于我们的架构高度集成,现在我们又添加了 Dynamo,Dynamo 可以进一步扩展其性能。

所以 Dynamo 也能帮助 Hopper,但对 Blackwell 的帮助更大。

现在请注意我标出的这两个闪光点,这大概就是您的最大 Q 值所在。这很可能就是您运行工厂运营的地方。您正在尝试在人工智能的最大吞吐量和最大质量之间找到平衡点。最智能的人工智能,以及最大数量的人工智能。这两者的交点,正是您优化的目标。

这就是在查看这两个方块下方时呈现的样子。Blackwell 的性能远优于 Hopper。请记住,这并非指 ISO 芯片。而是指 ISO 功率。

这是最终的摩尔定律,始终是过去摩尔定律的核心所在。现在我们实现了这一目标,在单代产品中实现了 25 倍的 ISO 功率提升。

这不是ISO芯片,也不是ISO晶体管,更不是任何ISO相关的组件。ISO功耗,是最终的限制因素。数据中心所能获得的能量是有限的。因此,在ISO功耗限制下,Blackwell方案的效率提升了25倍。

现在我们看到了这张彩虹图,令人难以置信。这才是有趣的部分。看,在帕累托前沿之下,有各种不同的配置方案,我们称之为帕累托前沿。在帕累托前沿之下,存在数百万种我们本可以用来配置数据中心的方法。

我们本可以以许多不同的方式将工作并行化、分割和分片。而我们找到了最优解,也就是帕累托前沿。

好的,帕累托边界。而且,由于颜色不同,每一个点都代表着不同的配置。这张图像非常清晰地说明了为什么我们需要一个可编程架构,使其尽可能地具有同质可替代性。因为工作负载在整个边界上变化非常剧烈。

看,在顶部,我们有专家并行8,批次大小为3000,去聚集关闭,Dynamo关闭。在中间,专家并行64,其中26%用于上下文,因此Dynamo开启,上下文占用26%,其余74%未使用。批次大小为64,一个使用专家并行64,另一个使用专家并行4。

然后在底部,我们有张量并行16与专家并行4,批次大小为2,上下文占用1%。计算机的配置在整个范围内都在发生变化。

然后,就会发生这种情况。这是一个输入序列长度的例子,它是一种比较通用的测试用例。这是一种您可以相对轻松地进行基准测试的测试用例。输入为1000个标记,输出为2000个。

请注意,我们之前向您展示了一个演示,其中输出非常简单,为9000,对吧,8000。所以很明显,这并不能仅代表那一次对话。而这一次更具有代表性。这就是目标所在,即构建面向下一代工作负载的下一代计算机。

这是一个推理模型的示例。在这个推理模型中,Blackwell的性能是Hopper的40倍。直接说吧。非常惊人。

你知道,我之前说过,有人确实问过,你知道,我为什么要那样说?但我之前说过,一旦Blackwell公司开始批量发货,你就会发现Hopper产品供过于求,几乎无人问津。我说的就是这个意思。这是合理的。如果还有人想购买Hopper产品,不用担心,没关系。

但是…… 我是首席收入破坏者。我的销售人员会说,哦,不,别那样说。霍珀在某些情况下表现良好。这是我所能对霍珀做的最好评价了。

你在某些情况下也表现良好,但情况不多。如果我必须采取行动,这就是我的观点。

当技术发展如此迅速,工作量如此巨大,并且你们正在建造这些类似工厂的东西时,我们真的希望你们投资于正确的版本。

为了便于理解,这就是一座100兆瓦工厂的样子。

基于Hoppers公司的方案,您拥有45,000个冲压模具、1400个机架,每秒可生产3亿个代币。

以下是Blackwell公司的方案。您拥有86个……我们并非试图减少您的购买量。我们的销售人员说,Jensen,你正在减少他们的购买量,但这是更好的方案。

总之,您购买越多,节省越多。事实上,情况比这还要好。现在,你购买得越多,赚取的就越多。

总之,请记住,一切都在人工智能工厂的背景下进行,一切现在都处于人工智能工厂的语境之中。

虽然我们谈论芯片,但你总是要从规模化开始。全面规模化。你能将什么最大限度地规模化?

我现在想向你展示人工智能工厂是什么样的,但人工智能工厂非常复杂。我刚才只给你举了一个机架的例子,它拥有60万个部件,重达3000磅。现在,你必须把它与许多其他部件连接起来。

因此,我们开始构建我们所说的每个数据中心的数字孪生。在构建数据中心之前,你必须构建一个数字孪生。

让我们来看一看这个。这简直令人难以置信地美丽。

世界各国都在竞相建设最先进的大规模人工智能工厂。建设一座人工智能千兆工厂是一项非凡的工程壮举,需要来自供应商、建筑师、承包商和工程师的数万名工人来建造、运输和组装近50亿个组件和超过20万英里的光纤,几乎相当于地球到月球的距离。

英伟达Omniverse人工智能工厂数字孪生蓝图使我们能够在物理建设开始之前设计和优化这些人工智能工厂。

在此,英伟达工程师利用蓝图规划一座千兆瓦人工智能工厂,整合了最新英伟达DGX超级计算集群的三维和布局数据,以及来自Vertip和施耐德电气的先进电力和冷却系统,并通过英伟达AIR(一个用于模拟网络逻辑、布局和协议的框架)进行了拓扑优化。

这项工作传统上是在各个孤立的部门进行的。Omniverse蓝图使我们的工程团队能够并行协同工作,让我们能够探索各种配置以最大限度地降低总拥有成本(TCO)并提高电力使用效率。

英伟达利用由CUDA和Omniverse库加速的Cadence Reality数字孪生技术模拟空气和液体冷却系统,并使用施耐德电气的eTap应用程序模拟电力模块的效率和可靠性。实时模拟使我们能够在几秒钟内完成迭代并运行大型假设场景,而无需耗费数小时。

我们使用数字孪生技术向众多团队和供应商传达指令,从而减少执行错误并加快部署时间。在规划改造或升级时,我们可以轻松地测试和模拟成本和停机时间,确保人工智能工厂具有未来发展潜力。

这是第一次有人在构建数据中心时会认为:“哇,这太漂亮了!”

目前我们正全面生产Blackwell系列产品。全球各地的电脑公司都在大规模地生产这些令人难以置信的机器。我非常高兴也很感激大家为过渡到这个新的架构而付出的努力。

在今年下半年,我们将轻松过渡到升级版。因此,我们将推出Blackwell Ultra MB-Link 72。

如您所知,它的处理能力提升了1.5倍。它具有新的注意力指令。其内存提升至原来的1.5倍。

所有这些内存可用于诸如KB缓存之类的用途。网络带宽也提升至原来的两倍。因此,现在我们拥有相同的架构,将能够平滑过渡。这被称为Blackwell Ultra,将于今年下半年推出。

所有公司都表示“下一个”是有原因的。事实上,这正是我希望得到的回应。原因是我们正在建设人工智能工厂和人工智能基础设施,这需要多年的规划。这不像购买一台笔记本电脑那样简单,也不是可随意支配的支出。

这是我们必须规划的支出,包括土地和电力供应,以及资本支出,并组建工程团队。我们必须提前一两年,甚至两三年进行规划。

这就是为什么我们会提前两三年向您展示我们的路线图的原因,这样我们就可以避免在五月份给您带来意外。

经过多年的规划,下一个阶段,也就是一年之后,是以一位天文学家的名字命名的。她的孙辈们也在场。她的名字是维拉·鲁宾。她发现了暗物质。维拉·鲁宾令人难以置信,因为其CPU是全新的,性能是Grace的两倍,内存更大,带宽更高。

然而,它只是一个只有50瓦的小型CPU,这确实令人难以置信。而且,鲁宾系统使用了全新的GPU,CX9,全新的网络智能网卡(NIC),NVLink 6,全新的NVLink互联技术,以及新型的内存HBM4。总体而言,除了底盘之外,其他一切都是全新的。

通过这种方式,我们可以在一个方向上承担很大的风险,而不会危及与基础设施相关的许多其他方面。因此,Vera Rubin,NVLink 144,将于明年下半年推出。

现在,我犯了一个错误,所以,我只需要你们做出这个调整:Blackwell实际上是一个Blackwell芯片中的两个GPU。我们称单个芯片为GPU是错误的,原因是这会打乱所有NVLink的命名法等等。

因此,展望未来,无需返回Blackwell进行修复,当我说NVLink 144时,它仅仅意味着它连接到144个GPU,并且每一个GPU都是一个GPU芯片,并且它可以组装在某个封装中,其组装方式可能会随时变化。所以,每个GPU芯片就是一个GPU。每个NVLink都连接到GPU。

因此,Vera Rubin,NVLink 144,这就为下半年,以及次年我们称之为Rubin Ultra的产品奠定了基础。

所以,Vera Rubin Ultra。这是Vera Rubin,Rubin Ultra,27的後半部分。它采用NVLink 576,实现了极大规模的扩展。每个机架的功率为600千瓦,由250万个部件组成。

而且,显然,还有大量的GPU,并且所有的一切都乘以X因子进行了提升。所以,浮点运算次数增加了14倍,达到15亿亿次浮点运算(15 exaflops)。正如我之前提到的,现在是15亿亿次浮点运算,而非1亿亿次浮点运算,实现了规模的扩大。

并且其内存达到了300,大概是4.6PB(拍字节)。所以,带宽规模提升到了每秒4600TB(太字节)。我指的不是聚合带宽,我指的是规模提升的带宽。当然,还有全新的NVLink交换机和CX9。

请注意,共有16个站点,每个封装包含4个GPU,采用极高速的NVLink互联。现在,让我们来了解一下它的规模。这就是它的样子。

现在,这将会很有趣。所以,您现在正在全力提升Grace Blackwell的性能。我并非想把它比作笔记本电脑,但这就是它的样子。

这就是Grace Blackwell的形态。鲁本的形态也是如此。ISO维度。

因此,换句话说,在进行横向扩展之前,必须先进行纵向扩展。在进行横向扩展之前,需要先进行纵向扩展。然后,在那之后,我们将利用令人惊叹的技术进行横向扩展。

所以,首先进行纵向扩展。这让您了解我们前进的速度,这是纵向扩展的浮点运算次数。这是纵向扩展的浮点运算次数。Hopper的性能是基准的1倍,Blackwell是68倍,Rubin是900倍。规模化扩展Flop。

然后,如果我将其转换为,本质上是您的总拥有成本(TCO),即功率在上,每单位功率在下,下面是曲线下方的面积,也就是曲线下的正方形,它基本上是浮点运算次数乘以带宽。

所以,衡量您的AI工厂是否取得进展的一个非常简单的直觉检验方法是,用瓦特数除以那些数字。您可以看到,Rubin将大幅降低成本。这就是英伟达的路线图,非常简短。一年一次,像钟表一样精确。一年一次。

我们如何进行规模化扩展?我们引入了,我们正在准备进行横向扩展。那是规模扩展,使用了NVLink技术。我们的规模扩展网络是InfiniBand和Spectrum X。

大多数人都很惊讶我们进入了以太网领域。我们决定使用以太网的原因是,如果我们能够帮助以太网达到InfiniBand的性能,拥有InfiniBand的特性,那么网络本身将更容易被所有人使用和管理。

因此,我们决定投资Spectrum,我们称之为Spectrum X,并将拥塞控制、极低延迟和作为我们计算结构一部分的少量软件的特性融入其中。结果,我们使Spectrum X的性能极其出色。

我们使用Spectrum X构建了有史以来最大的单一GPU集群,作为一个巨大的集群。这就是Colossus(巨型计算机系统)。还有许多其他的例子。Spectrum X无疑对我们来说是一个巨大的成功。

我非常期待的一个领域是,最大的企业网络公司将采用Spectrum X并将其集成到其产品线中,以便帮助全球企业成为人工智能公司。

我们在CX7上拥有10万个用户。现在CX8即将推出,CX9也即将推出。

在Rubin任职期间,我们希望将GPU数量扩展到数十万个。现在,将GPU扩展到数十万个面临的挑战在于扩展连接。扩展连接使用的是铜缆。我们应该尽可能地使用铜缆。

这大约是一到两米左右的距离。这提供了令人难以置信的良好连接性、非常高的可靠性、非常好的能源效率以及非常低的成本。

因此,我们在扩展中尽可能多地使用铜缆。然而,在横向扩展场景下,数据中心如今已如同体育场般巨大,我们需要一种更长距离运行的解决方案。这就是硅光子学发挥作用的地方。

硅光子学的挑战在于其收发器功耗巨大。从电信号到光信号的转换需要经过串行-并行转换器(SerDes)、收发器以及多个串行-并行转换器。

好,让我们把它投影到屏幕上,这样我可以向大家展示我正在讨论的内容。好的,首先,我们宣布英伟达首个采用共封装光子系统的方案。它是全球首个1.6太比特每秒的共封装光学器件(CPO)。

它基于一种名为微环谐振器调制器(MRM)的技术。并且它完全采用我们与台积电(TSMC)合作已久,令人难以置信的工艺技术构建而成。我们与庞大的技术提供商生态系统合作,共同发明了即将向您展示的技术。这真的是一项令人难以置信的技术,极其令人难以置信的技术。

我们之所以决定投资微环谐振器调制器(MRM),是为了利用MRM令人难以置信的密度和功耗优势,其密度和功耗比用于电信的马赫曾德尔干涉仪(Moxander)更好,后者用于电信中数据中心之间的通信。

甚至在我们使用的收发器中,我们也使用马赫曾德尔干涉仪(Moxander),因为到目前为止,密度要求并不高。

所以,如果您看看这些收发器,这是一个收发器的例子。这是一个插头,功率是30瓦,大量购买价格是1000美元。

此侧为电源接口,此侧为光纤接口。光信号通过黄色接口输入。您将此插头插入交换机。其中包含收发器、激光器,并采用名为Moxander的技术。

我们使用它将数据从GPU传输到交换机,再到下一个交换机。然后是下一个交换机,再下一个交换机,例如连接到GPU。因此,如果我们有10万个GPU,我们这边就会有10万个这样的组件,然后是另外10万个组件,用于连接交换机与交换机。然后在另一侧,我将其归因于另一个网卡(NIC)。

如果我们有25万个GPU,我们将增加一层交换机。因此,每个GPU,所有25万个GPU,每个GPU将有六个收发器,每个GPU将有六个这样的插头。

这六个插头每个GPU将增加180瓦的功耗,每个GPU 180瓦,每个GPU 6000美元的成本。所以问题是,我们如何将规模扩大到数百万个GPU?因为如果我们有100万个GPU乘以6,那就是600万个收发器乘以30瓦,也就是1.8亿瓦的收发器功耗。它们没有进行任何计算,只是移动信号。

因此,问题在于,我们如何,我们能够如何负担得起,正如我之前提到的,能源是我们最重要的商品。最终一切事物都与能源相关,因此这将通过减少180兆瓦的电力来限制我们的收入和客户的收入。

因此,这是我们所做的令人惊奇的事情。我们发明了世界上第一台微镜MRM这就是它的样子。

那里有一个小的波导,您可以在波导上看到,它通向一个环,该环产生共振,并控制波导在绕行时的反射率,从而限制和调制能量,即通过的光量。它通过吸收光来关闭它,或者让它通过。它将这种直接的连续激光束转换为1和0。这就是奇迹。

然后,这项技术——光子集成电路——与电子集成电路堆叠在一起,然后与一堆微透镜堆叠在一起,再与称为光纤阵列的东西堆叠在一起。

这些部件都是使用台积电的这项技术(他们称之为COOP)制造的,并使用3D COAS技术进行封装,并与所有这些技术提供商(我之前刚刚展示过它们的名字)合作,最终将其转变为这台令人难以置信的机器。那么让我们来看一下这段视频。

这简直是一项技术奇迹。它们变成了这些交换机,我们的 InfiniBand 交换机,硅芯片运行状况极佳。今年下半年我们将交付硅光交换机,明年下半年我们将交付 Spectrum X。

得益于 MRM 的选择,得益于我们在过去五年中承担的令人难以置信的技术风险,我们申请了数百项专利,并将技术授权给我们的合作伙伴,以便我们都能制造它们,现在我们能够将硅光子技术与共封装选项相结合,无需收发器,光纤直接连接到我们的交换机,基数为 512。这就是 512 个端口。任何其他方法都根本无法做到这一点。

因此,这使我们能够扩展到这些拥有数十万甚至数百万个 GPU 的系统。其益处,您可以想象一下,令人难以置信。在数据中心,我们可以节省数千万瓦的电力。假设是十兆瓦,或者说六十兆瓦。六兆瓦相当于十个Rubin Ultra机架。

六十兆瓦的电力相当可观。我们现在可以将一百个Rubin Ultra机架的电力部署到Rubin系统中。

我们的路线图是:每年进行一次架构更新,每两年进行一次整体架构升级,每年推出一条新的产品线,实现X因素的提升。

我们尝试逐步承担硅片、网络或系统机箱的风险,以便在追求这些令人难以置信的技术时,能够推动行业向前发展。

薇拉·鲁宾,我非常感谢她的孙辈们来到这里。这是我们认可她并为她所做出的杰出工作致敬的机会。我们下一代产品将以费曼命名。

接下来是英伟达的路线图。让我来和您谈谈企业计算,这非常重要。

为了将人工智能带入全球企业,我们首先需要转向英伟达的不同部门。高斯散点图的美妙之处。

为了将人工智能带入企业,让我们退一步,提醒自己这一点。请记住,人工智能和机器学习已经彻底重塑了整个计算堆栈。

处理器不同了,操作系统不同了,顶层的应用程序也不同了。应用程序的运行方式不同,编排方式不同,执行方式也均不同。

举一个例子,您访问数据的方式将与过去 fundamentally 不同。未来,我们不会再精确地检索所需数据,然后阅读并尝试理解它,而是会像使用Perplexity那样进行操作。我们不再那样检索信息,而是直接向Perplexity提出我的问题,提问,然后它会给出答案。

未来,企业IT也将采用这种方式运作。

我们将拥有作为数字劳动力一部分的AI代理。全球有数十亿知识型员工,未来可能会有100亿数字员工与我们并肩工作。未来,全球3000万软件工程师中的100%都将借助AI辅助工具。

我对此深信不疑。到今年年底,英伟达100%的软件工程师都将借助AI辅助工具。因此,人工智能代理将无处不在。它们的运行方式、企业的运行方式以及我们的运行方式都将发生根本性的改变。

所以我们需要新一代的计算机。这才是个人电脑应有的样子:20 petaflops(千万亿次浮点运算),令人难以置信。72个CPU核心,芯片间接口,高带宽内存(HBM),此外,还有一些PCI Express插槽用于您的GeForce显卡。这叫做DGX Station。

DGX Spark和DGX Station将由所有原始设备制造商(OEM)提供,包括惠普、戴尔、联想、华硕。它将面向全球的数据科学家和研究人员生产。这是人工智能时代的计算机,这就是计算机应该的样子,这也是未来计算机的运行方式。

我们现在为企业提供了一整套产品线。

我们提供从小型机到工作站、服务器,再到超级计算机的各类产品。

这些产品将由我们所有的合作伙伴提供。我们还将彻底革新其余的计算架构。

请记住,计算具有三大支柱,其一是计算本身,而你们正在见证它的发展。其二是网络,正如我之前提到的,Spectrum X 将面向全球企业,构建一个人工智能网络。

第三是存储。存储必须彻底重新设计,它将不再是基于检索的存储系统,而是一个基于语义的存储系统。因此,该存储系统必须持续不断地将信息嵌入到后台。它接收原始数据,将其嵌入到知识中,然后当您访问它时,您无需检索它,而只需与它进行交互。你可以向它提问,也可以给它提出问题。

其中一个例子是Box公司的Aaron,他甚至将其上传到云端,并与我们合作将其上传到云端。它基本上是一个超级智能的存储系统。未来,每个企业都将拥有这样的系统。这就是未来的企业存储。

我们正在与整个存储行业合作,他们都是非常棒的合作伙伴,包括DDN、戴尔、惠普企业、日立、IBM、NetApp、Nutanix、Pure Storage、Vast和Weka。

基本上,全球整个存储行业都将提供这一技术栈。首次,您的存储系统将实现GPU加速。

戴尔将提供全系列的英伟达企业级IT人工智能基础设施系统以及在其上运行的所有软件。因此,您可以看到我们正在彻底变革全球企业。

我们今天还宣布了这款令人难以置信的模型,每个人都可以运行。此前我向您展示了R1,一个推理模型。我将它与Llama 3(一个非推理模型)进行了比较。很明显,R1要聪明得多。

但我们还可以做得更好,我们可以使其成为任何公司都可用的企业级产品。现在它完全开源,是我们称之为NIMS的系统的一部分。

您可以下载它,可以在任何地方运行它。您可以在DGX Spark上运行它。您可以在DGX Station上运行它。您可以在原始设备制造商(OEM)生产的任何服务器上运行它。您可以在云端运行它。您可将其集成到您的任何自主智能(Agentic AI)框架中。我们正与世界各地的公司合作。

我将快速浏览这些内容,请仔细观看。我想感谢一些在座的优秀合作伙伴。

埃森哲,朱莉·斯威特和她的团队正在构建他们的AI工厂和AI框架。Amdocs,全球最大的电信软件公司。

AT&T公司,John Stanky及其团队正在构建一个AT&T人工智能系统,一个具有自主代理能力的系统。Larry Fink和贝莱德团队正在构建他们的系统。未来,Anyrood公司不仅会招聘ASIC设计人员,还会招聘大量来自Anyrood Cadence的数字ASIC设计人员来帮助我们设计芯片。因此,Cadence公司正在构建其人工智能框架。

正如您所看到的,在每一个系统中,都集成了NVIDIA模型、NVIDIA NIMS和NVIDIA库。因此,您可以将其在本地、云端或任何云平台上运行。Capital One,一家在技术应用方面最为先进的金融服务公司,广泛使用了NVIDIA的技术。德勤公司,Jason及其团队。ENY公司,Janet及其团队。纳斯达克公司,Dina及其团队。将英伟达技术集成到他们的AI框架中。然后是克里斯蒂安和他在SAP的团队。比尔·麦克德莫特和他在ServiceNow的团队。

首先,这是一个主题演讲,其第一张幻灯片就花了30分钟。然后所有其他幻灯片也都花了30分钟。

接下来,我们换个地方吧。我们来谈谈机器人技术。

机器人时代已经到来。机器人能够与物理世界互动并执行数字信息无法完成的任务,这是它们的优势所在。我们非常清楚地知道,世界正面临着严重的劳动力短缺。到本十年末,全世界至少将短缺5000万名工人。

我们非常乐意支付每位工人5万美元的年薪以吸引他们来工作。我们可能不得不每年支付机器人5万美元的“薪水”以使其投入工作。因此,这将是一个非常庞大的产业。

各类机器人系统层出不穷。您的基础设施将实现机器人化。仓库和工厂中将部署数十亿个摄像头。全球约有1000万到2000万家工厂。正如我之前提到的,每辆汽车实际上都是一台机器人。现在,我们正在建造通用机器人。让我向您展示我们是如何做到的。

所有移动的物体都将实现自主化。物理人工智能将赋能各类机器人,应用于各行各业。三台英伟达制造的计算机支持机器人人工智能的持续循环模拟、训练、测试和真实世界经验反馈。机器人训练需要海量数据。

互联网规模的数据提供了常识和推理能力,但机器人还需要行动和控制数据,而这些数据的获取成本很高。

利用基于英伟达Omniverse和Cosmos构建的蓝图,开发者可以生成海量多样化的合成数据,用于训练机器人的策略。

首先,在Omniverse中,开发者根据不同的领域、机器人和任务,整合真实世界的传感器数据或演示数据。然后利用Omniverse对Cosmos进行条件处理,将原始采集数据扩增为海量逼真且多样化的数据。

开发者使用Isaac Lab利用增强的数据集对机器人策略进行后期训练。并通过模仿学习克隆行为,或通过试错法以及强化学习AI反馈,让机器人学习新技能。

实验室练习与真实世界有所不同。新策略需要进行现场测试。开发者使用Omniverse进行软件和硬件在环测试,在具有真实世界环境动态、领域随机化、物理反馈和高保真传感器模拟的数字孪生体中模拟策略。

真实世界的操作需要多个机器人协同工作。Mega,一个Omniverse蓝图,允许开发者大规模测试经过后期训练的机器人策略集群。在此,富士康在一个虚拟的英伟达Blackwell生产工厂中测试异构机器人。

当机器人大脑执行其任务时,它们通过传感器模拟感知其行动的结果,然后规划下一个行动。Mega 允许开发者测试许多机器人策略,使机器人能够作为一个系统工作,无论是空间推理、导航、移动性还是灵巧性方面。

令人惊奇的事物诞生于模拟之中。今天,我们推出 NVIDIA Isaac Groot N1。Groot N1 是一个用于人形机器人的通才基础模型。它建立在合成数据生成和模拟学习的基础之上。

Groot N1 采用了一种双系统架构,用于快速和慢速思考,其灵感来自于人类认知处理的原理。慢速思考系统允许机器人感知和推理其环境和指令,并规划正确的行动。快速思考系统将计划转化为精确且连续的机器人动作。

Groot N1 的泛化能力使机器人能够轻松地操纵常见物体并协同执行多步骤序列。通过完整的合成数据生成和机器人学习流程,人形机器人开发者可以对Groot N1进行跨多种形态、任务和环境的后期训练。

全世界各个行业的开发者都在使用英伟达的三款计算机来构建下一代具身人工智能。

物理人工智能和机器人技术发展迅速。每个人都应该关注这一领域。这很可能成为所有行业中规模最大的一个。

其核心在于,我们面临着同样的挑战。正如我之前提到的,我们关注三个方面。这些问题具有系统性。

首先,如何解决数据问题?如何以及在哪里创建训练人工智能所需的数据?其次,模型架构是什么?第三,缩放损失是什么?

我们如何扩展数据、计算能力或两者兼顾,从而使人工智能越来越智能?我们该如何进行扩展?

这两个基本问题同样存在于机器人领域。在机器人领域我们创建了一个名为Omniverse的系统,它是我们用于物理人工智能的操作系统。长期以来,你们都听我谈论过Omniverse。

我们向其中添加了两项技术。今天,我将向你们展示两件事。其一,是为了让我们能够扩展具有生成能力和能够理解物理世界的生成模型的AI。我们称之为Cosmos。

利用Omniverse来调节Cosmos,并利用Cosmos生成无限数量的环境,使我们能够创建扎实可靠的数据。这些数据扎实可靠,受我们控制,同时又具有系统性的无限性。

正如您所见,在Omniverse中,我们使用糖果色来举例说明我们如何完美地控制场景中的机器人,而Cosmos可以创建所有这些虚拟环境。

第二点,正如我们之前所讨论的,当今语言模型令人难以置信的扩展能力之一是强化学习,以及可验证的奖励。

问题是,机器人技术的可验证奖励是什么?正如我们非常清楚的那样,那就是物理定律。可验证的物理奖励。因此,我们需要一个令人难以置信的物理引擎。

嗯,大多数物理引擎的开发都有各种各样的原因,可能是为了大型机械设备而设计,也可能是为了虚拟世界、电子游戏等等而设计。

但我们需要一个专为精细、刚性和软体设计的物理引擎。该引擎的设计目标是能够训练触觉反馈、精细动作技能和执行器控制。我们需要它能够进行GPU加速,以便这些虚拟世界能够以超线性时间、超实时的方式运行,并以极快的速度训练这些AI模型。

我们还需要它与全球机器人专家都在使用的框架——MuJoCo——和谐地集成。

所以今天我们要宣布一些真正特别的东西。这是三家公司的合作成果,分别是DeepMind、迪士尼研究和英伟达,我们将其命名为Newton。让我们来看看Newton,谢谢。

你觉得新的物理引擎怎么样?你喜欢它,是吗?是的,我敢打赌。我知道。触觉反馈、刚体、柔体、仿真、超实时。你能想象刚才你所看到的一切都是实时仿真吗?未来我们将以此方式训练机器人。

顺便说一下,蓝色机器人内部有两台计算机,两台英伟达显卡。看你多聪明。是的,你很聪明。

嘿,蓝色机器人,听着。我们把它带回家怎么样?我们结束这场主题演讲吧。该吃午饭了。你准备好了吗?我们把它结束掉吧。我们还有一个公告。你表现得很好。

就站在这里。好的,很好。。

我们还有另一个令人振奋的消息。我告诉过你们,我们的机器人技术取得了巨大进展。今天,我们宣布Groot N1将开源。我想感谢各位的光临。

让我们总结一下。感谢各位参加GTC大会。我们讨论了几个方面。第一,Blackwell已全面投产,而且发展势头令人难以置信。客户需求非常旺盛。这是有充分理由的。

因为人工智能正处于一个拐点,由于推理型人工智能和代理型人工智能系统的训练,我们需要进行的人工智能计算量大幅增加。

第二,配备Dynamo的Blackwell NVLink 72的AI工厂性能是Hopper的40倍。随着人工智能的扩展,推理将在未来十年成为最重要的工作负载之一。

第三,我们已为您制定了年度路线图,以便您规划您的AI基础设施。然后,我们正在建设两到三个AI基础设施,分别面向云端的AI基础设施、面向企业的AI基础设施以及面向机器人的AI基础设施。

我们还有一个惊喜为您准备。

感谢大家。感谢所有使这段视频成为可能的合作伙伴。感谢所有使这段视频成为可能的各位。祝您GTC大会圆满成功。谢谢。
 

(文:AI先锋官)

欢迎分享

发表评论