三句话提提神,
RTX 5070显卡性能媲美4090,价格只要1/3;
21978块,一台 MacBook Pro 的价格,就可以拥有自己的个人超算;
世界基础模型开源,用AI模拟物理世界,自由构建下一代机器人和自动驾驶;
谁说显卡界没有春晚啊?
这次没买到去 CES 2025 的票,下次一定要去现场看黄仁勋发布“理财神器”。
振金已经 out 了,拥有 GB200 集群的盾牌才是真正的队长(狗头保命)。
话说回来,这次发布会时长90分钟,干货太满,至少包圆了未来6个月英伟达的更新。
除了发布会,官方还一口气放出了12篇博客,横跨了 RTX 50系显卡、个人超算、深度学习超级采样技术 DLSS4、数据中心超级芯片 Grace Blackwell NVLink72、个人 AI 超算 Project Digits、由 Llama 剪枝和训练后的 Nemotron 模型、物理 AI 开发平台 NVIDIA Cosmos、生成式世界基础模型 (WFMs)、自动驾驶、机器人,甚至 Apple Vision Pro 都要掺一脚。
所以为了最大程度保留原汁原味,我结合了各位大佬的评价、官方博客、发布会整合出了这篇文章,
跟大家一起快速过一遍。
PS: 最后还会分享了CES 2025第一天的另外几个更新。Here we go
一、RTX 50系显卡
我们利用GeForce推动了人工智能的发展,而现在人工智能正在彻底改变GeForce。
就在同一天,英伟达市值达到了3.66万亿美元,创下历史新高。这一市值使其成为全球第二大上市公司,仅次于 Apple。
RTX 50系列显卡就是纯纯数值怪,
是等等党的胜利!老黄队长当场宣布 5070 可达到上代 4090 的性能,价格只要 4090 的三分之一。
但老黄还是留了一手,
从全局参数上看,5070应该算得上是95%的4090,能在游戏帧数上追平 4090,还是靠新技术 DLSS4。
从官方博客里看,DLSS4 代表了自 DLSS 2 发布以来“对其 AI 模型的最大升级”。值得关注有两个点:
-
DLSS4 新增了神经渲染功能,搭配 RTX 50系显卡,可实现多帧生成,每帧生成最多三个额外帧,帧率最高可提升至传统渲染的8倍。这一升级足以支持4K 240fps的全光线追踪游戏体验。目前已有75款游戏和应用支持多帧生成功能,包括《赛博朋克2077》和《星球大战:亡命之徒》等。 -
所有 RTX 显卡都将支持 DLSS4,更新后的帧生成模型比上一代快40%,显存占用减少30%。
也就是说 4090 也会迎来一小波性能提升。
而同系列的 5090 的价格还是往上涨了点(+400)。但价格只加400,RTX 5090 的 GPU 内存就能涨到 32GB,跟4090对比增加了33%,还真的是爽歪歪了。
首批 RTX 50 系显卡 1 月就会上市。后续装配 RTX 5070 的 PC 将于 3 月推出,起售价为 1,299 美元。
当然别忘了还是国内特供版 5090D ,1/3的价格换来的是1/3的算力,太难顶了。
50系显卡首秀后,老黄还透露出包括微软、Meta、xAI在内约15个超算中心,都已经装上了 Blackwell GPU。我想我们可以期待一下今年下半年能用上 OpenAI o3了。
二、个人超算
我原以为mac mini已经天下无敌了,Digits,这是谁的部将?
以往这些超级芯片也就听一乐,结果今天告诉我,变消费级了?
站在你面前的是显卡队长老黄!
他手里拿起全新的数据中心超级芯片 Grace Blackwell NVLink72 盾牌🛡️,配备了 72个Blackwell GPU、1.4 exaFLOPS算力和130万亿个晶体管,目标是世界最快超算。
秀完盾牌后,老黄公布了售价 3000 美元的个人 AI 超级计算机:
Project Digits
搭配 GB10 Grace Blackwell 超级芯片,只需要标准的电源就可以运行,要知道RTX是需要机箱电源供电的。
相当于手里拿着台超算去星巴克,这不就是小说里的名场面吗!
这小东西长得跟小纸盒一样,但可以运行高达 2000 亿参数的 AI 模型。而且还可以将两个 Project Digits 链接在一起(真就super mac mini呗),支持运行高达 4050 亿参数的模型(Meta 的最佳模型 Llama 3.1 有 4050 亿参数)。
按理来说,这台超算应该是六边形战士了吧,但后续一些缺点被挖出来了。
-
虽然内存高达128G,但是根据 NVIDIA Grace CPU 的 datasheet,Grace CPU的内存带宽只有 512GB/s。所以跟 MacBook Pro M4 Max 差不多(70b-4bit 大模型大概 13token/s 的速度)【信息来源 @karminski3】 -
Project Digits $3000 提供128GB 统一内存,对比Mac mini 选配64GB 统一内存需要2899刀,换四台5090更是太贵。所以Project Digits用来本地推理+微调看起来是很不错的选择。【信息来源 @9hills】
好在这个还不是期货,5月份就会推出。
我们可以在 Project Digits 本地开发和测试 AI 模型,然后使用相同的 Grace Blackwell 架构和 Nvidia AI Enterprise 软件平台将它们部署到云服务或数据中心基础设施。一条龙都安排好了属于是。
三、NVIDIA Cosmos 和世界基础模型
世界基础模型缩小了仿真与现实之间的差距
这一 part 也是最难整理的部分。
我选择先介绍一下 NVIDIA Cosmos,
它被定义为加速物理 AI 开发的平台,它包括了生成式世界基础模型(可以预测并生成虚拟环境未来状态的物理感知视频的神经网络)、高级分词器以及加速的视频处理管道,帮助开发者构建下一代机器人和自动驾驶汽车(AV)。
这样一来,后续的几个重要更新就都被这个平台串联起来了🎉。
再来说说🌍世界基础模型(WFMs),
与大型语言模型一样,使用输入数据(包括文本、图像、视频和运动)来生成和模拟虚拟世界,从而准确地模拟场景中对象的空间关系及其物理交互。
这些模型通过分析来自2000万小时的真实世界人类互动、环境、工业、机器人和驾驶数据,总计9000万亿Token进行训练。一共分为三类:
-
Nano,针对实时、低延迟推理和边缘部署进行了优化 -
Super,高性能的基线模型 -
Ultra,提供极致的质量和保真度,适合用于定制模型
而研究人员和开发者,无论其公司规模如何,都可以在 NVIDIA 的宽松开源模型许可下免费商用。
Hugging Face 地址🔗:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
四、自动驾驶和机器人
Agentic AI、自动驾驶汽车和机器人是“我们正在研究的三种机器人”
下一步就是自动驾驶和机器人了,
与 NVIDIA Omniverse 3D 配合使用时,WFMs 生成了可控的高质量合成视频数据,以满足机器人和自动驾驶感知模型的训练。
合成数据能大规模的使用,
意味着机器人领域的 GPT4.5 时刻即将到来,
对于如何让机器人学会怎么移动身体这个问题,英伟达给出了不一样的答案:
让一个机器人真正学会怎么移动身体、怎么和物体交互,最少得有三台计算机配合
第一台是大规模训练系统,比如那些超级 GPU 集群,用来训练基础模型和算法。
第二台就是这个世界模型加数字孪生平台,给机器人提供各种模拟环境和虚拟数据,类似不停地做仿真测试、迭代动作。
第三台才是部署到机器人体内或车里那台小型计算机,负责实时决策和感知处理。”
这一步 Apple Vision Pro 还能起到作用,
看来我买不了二手的便宜货了,
简单来说,英伟达还有一个新项目:
NVIDIA Isaac GR00T
这个项目里的组件 Blueprint,能够借助 Apple Vision Pro 捕捉人类动作,并在数字孪生中模拟这些动作,以用作地面真实情况的记录。
同期用于训练机器人的项目还有一个名为 Mega 的数字孪生蓝图。
个人理解,跟上面 GR00T 最大的不同是,Mega 面对的是机器人矩阵:
🤖🤖🤖🤖🤖🤖🤖🤖🤖🤖*10
机器人开发人员能够同时渲染来自工厂中任何类型智能机器的传感器数据,以进行高保真大规模传感器模拟。这使得机器人可以在数字孪生中的无数场景中进行测试。
CES 2025 第一天里其他有意思的东西
-
戴尔在展会上宣布将淘汰大部分品牌,转而效仿苹果的命名策略。你将拥有 Dell、Dell Pro 和 Dell Max
-
Dreame 的 X50 可以通过其“ProLeap 系统”跳过高达 6 厘米的障碍物,从而避免在复杂的门门槛上卡住。鉴于大多数机器人吸尘器可能会在房间之间的门槛上搁浅,这感觉是一个有用的功能。
-
Roborock 的 Saros Z70 则在盖子上装了一个小机械臂,可以拾起和移动挡路的小物件。
说真的,
但凡跟数据有关的,英伟达都包圆了,
手握着算力和数据,这下子英伟达宇宙真的成了。
Nvidia 指引方向,
这就是未来。
@ 作者 / 卡尔 @ 动手学AI知识库 / learnprompt.pro
(文:卡尔的AI沃茨)