突发!微软发布首款定制数据处理DPU芯片,使服务器性能提升400%,全面挑战英伟达|

11月19日晚 Microsoft Ignite 2024上,科技巨头微软公司推出了一系列关于Azure云计算和 AI 相关的服务和软硬件产品,关于技术层面的新闻文章超过40篇。
其中,微软今天推出了全新定制芯片:首款数据处理器Azure Boost DPU 和全新内部云安全芯片 Azure Integrated HSM,以及包括Azure HBv5 虚拟机等。
作为微软的首款内部DPU芯片,Azure Boost DPU旨在高效、低功耗地运行 Azure 以数据为中心的工作负载,将传统服务器的多个组件整合到一块硅片中。Azure Boost DPU 将高速以太网和 PCIe 接口以及网络和存储引擎、数据加速器和安全功能集成到一个完全可编程的片上系统中。
微软预计未来配备 DPU 的 Azure 服务器,将以现有服务器四倍(400%)的性能运行存储工作负载,同时功耗降低三倍。
“Azure Boost DPU 专为 Azure 上的横向扩展、可组合工作负载而设计,可为其云基础设施提供跨存储、网络、加速等方面的效率。”但微软没有透露更多的基础测试信息,也没有提到 Azure 客户何时可以看到这些收益。
DPU 是一种专用硬件,用于处理某些数据处理任务,包括数据流量的安全性和网络路由。它们旨在帮助减少与特定工作负载(包括 AI 工作负载)相关的核心计算任务对 CPU 和其他芯片的负载。
过去几年,DPU 市场日益突出。Nvidia 于 2019 年开始提供其 BlueField 系列 DPU,而 AMD自 2022 年以来一直在销售其Pensando DPU。亚马逊网络服务 (AWS) 的 Nitro 卡提供类似 DPU 的功能,而谷歌则与英特尔合作开发了可执行许多与 DPU 相同功能的芯片。
Azure Boost DPU 可能起源于 Fungible,这是一家 DPU 制造商,微软去年 12 月收购了该公司。据报道,微软以约 1.9 亿美元收购了这家由前苹果和瞻博网络工程师创立的公司。收购后,Fungible 团队加入了微软的基础设施工程部门。
DPU 带来的效率提升对超大规模企业来说颇具吸引力,这些企业受 AI 需求的推动,正在建设越来越大、耗电量越来越大的数据中心。微软在 2022 年表示,由于其能耗不断增长,其数据中心能源成本将增加 8 亿美元。
英伟达(NVIDIA)首席执行官黄仁勋认为,CPU、GPU 和 DPU 将成为数据中心的基础。在他的愿景下,CPU 将负责一般处理,GPU 将为加速计算提供动力,而 DPU 将管理数据流。
据 Allied Analytics 称,到 2031 年,DPU 芯片的市场价值可能达到 55 亿美元。
因此,这意味着,Azure Boost DPU 直接对标BlueField 系列 DPU,并且在更多定制CPU等产品下,减少对英伟达 AI 服务器芯片H100/A100集群的依赖,
值得注意的是,国内也有很多初创公司在做DPU芯片产品,比如中科驭数、云脉芯联、星云智联、云豹智能等,此外,华为,阿里,百度,腾讯也在近几年针对自身服务器进行自研与外购 DPU,针对的主要功能在于数据,存储与安全方面。
11月19日,2024 世界互联网大会“互联网之光”博览会上,中国移动宣布,与华为、中兴、新华三、锐捷、盛科、云豹智能等共同发布首颗全调度以太网(GSE)DPU 芯片 “智算琢光”,是首颗全量支持 GSE 标准的 DPU 芯片,支持 200G 端口速率等,基于该芯片搭建的 GSE 网络性能可比传统 RoCE 网络提升 30% 以上,大幅提升 GPU 节点间通信效率。
微软表示,Azure Boost DPU 是其通过硬件创新增强基础设施系列的最新成员。“随着我们不断突破可能的界限,我们仍致力于提供创新,使我们的基础设施更强大、更高效、更具可扩展性,以满足客户不断变化的需求。”

此外,微软这次还宣布推出Azure内部云安全芯片HSM,Azure 容器应用无服务器 GPU 公开预览版,和面向 HPC 客户及其应用程序的最新基于 CPU 的虚拟机 Azure HBv5等。

  • Azure 集成硬件安全模块 (HSM)是一款全新的内部云安全芯片,它允许将签名密钥(基本上是数字加密签名)和加密密钥(用于加密数据的位串)包含在安全模块中,而不会影响性能或增加延迟。微软表示:“从明年开始,Azure Integrated HSM 将安装在微软数据中心的每台新服务器上,以增强 Azure 硬件集群对机密和通用工作负载的保护。”Azure Integrated HSM 是微软继Pluton之后推出的第二款安全芯片,Pluton 是一款内置于英特尔、AMD 和高通处理器中的面向消费者的芯片。这也是该公司对其云竞争对手专有解决方案的回应:AWS 的 Nitro 处理某些安全任务,而谷歌在谷歌云服务器中内置了一个名为 Titan 的安全芯片。
  • 无服务器 GPU由 NVIDIA A100 GPU和NVIDIA T4 GPU逆行加速,可轻松扩展并灵活地执行实时自定义模型推理和其他机器学习任务;

  • HPC虚拟机 Azure HBv5,针对计算流体动力学、汽车和航空航天模拟、天气建模、能源研究、分子动力学、计算机辅助工程等领域进行优化,有四个处理器共同工作,提供近7 TB/s 的内存带宽,与最新的裸机和云替代方案相比,这高出 8 倍,比 Azure HBv3 和 Azure HBv2(第三代 EPYC和第二代 EPYC Rome)高出近 20 倍,比接近硬件生命周期末期的 4-5 年 HPC 服务器高出 35 倍。

“重大平台转变即将到来”,微软CEO萨蒂亚·纳德拉 (Satya Nadella) 在会上表示,Copilot 是人工智能的用户界面,它正在迅速成为工作的组织层,并决定工作如何完成……每位员工都会有一个了解他们、知道他们如何工作的副驾驶。 Copilot AI 平台将改变各个级别的人们有效和高效的工作方式,AI Agent将是重点。
纳德拉表示:“有时我们会把这些Agent神秘化,认为需要花费很多精力才能构建出来,但我们的愿景是,这应该像创建一个 Word 文档一样简单。”
展望AI的未来,纳德拉引用美国哲学教授约翰·豪格兰(John Haugland)的话指出:“AI的问题在于计算机根本不在乎,而我们却在乎。”
“这才是我们真正立足的地方,”他表示,“在这一切快速变化中,我们始终坚守我们的使命,那就是让地球上的每个人、每个组织都能取得更大的成就,利用这项技术为他们自己、他们的团队和世界带来改变。技术不是为了技术而技术,而是要将技术转化为真正的成果,技术的变革力量可以推动业务增长,提高效率和运营平衡(杠杆)。”
“随着我们进入 AI 的中期,我们有责任增强人类的成就,”他补充道,“学习这些技能将改变人们的生活——事实上,它已经改变了。”

(文:钛媒体AGI)

发表评论