全球视野下的 AI Infra:AI 出海挑战、GPU 集群解决方案与选型

分享嘉宾 | King Cui,Jay Hsueh
审校 | 李忠良
策划 | AICon 全球人工智能开发与应用大会

随着全球数字化进程的推进,越来越多的企业希望将自己的 AI 应用拓展到海外市场。然而,AI 出海面临诸多挑战,本次演讲重点关注如何突破算力挑战,保障 AI 训练过程中的 GPU 集群稳定性。

稳定的 GPU 集群对突破算力挑战至关重要。GPU 集群能并行处理海量数据,其稳定性确保计算持续高效。在不久前举办的 AICon 全球人工智能开发与应用大会上,来自 GMI Cloud 的 King Cui 和 Jay Hsueh 为我们带来了演讲“全球视野下的 AI Infra:AI 出海挑战、GPU 集群解决方案与选型”,主要介绍 了全球企业在基础设施层的挑战,及深度解析了 GMI Cloud  的 Cluster Engine、NCP 认证、故障预防策略。


内容亮点:
  • 了解 AI 出海面临的基础设施挑战及应对思路

  • 了解 GMI Cloud 的稳定性架构策略,启发企业自研 AI 应用出海架构迭代升级

  • 了解出海企业如何在经济上进行 Al Infra 选型

以下是演讲内容,InfoQ 在不改变演讲者原意基础上进行了删减。

我是 King Cui,来自 GMI Cloud。GMI Cloud 是一家全球性的 GPU 云服务公司,今天我想和大家分享一下,在 AI 出海的过程中,我们是如何确保 GPU 基础设施集群的稳定性,以及我们在技术上做了哪些努力。

我曾在某云大厂负责互联网业务,今年加入了 GMI Cloud,专注于全球 GPU 云服务。GMI Cloud 专注于 AI 出海领域,提供海外 GPU 云服务。我们有三个主要特点:首先,我们是英伟达的合作伙伴,也是全球排名前十的 Nvidia Cloud Partner(NCP)。其次,我们在亚太区拥有 GPU 的优先分配权,能够第一时间获取英伟达最新、最强大的 GPU,如 H200 以及明年即将发布的 GB 200,并提供相应的云服务。最后,我们是一家致力于 AI Native 的公司,我们的技术团队由谷歌 X Lab 的成员和硅谷的智算技术专家组成,共同打造一个 AI native 的云平台。我们不做贸易生意,我们的目标是打造一朵 AI Native Cloud。

我们的业务布局主要集中在两个大区域:美国和亚太区。美国是 AI 需求和发展最快的地区之一,而亚太区则包括台湾、泰国、马来西亚等,我们下个月还将在日本推出服务。我们的关注点将集中在以日本、韩国为主的东北亚,以及以马来西亚、泰国为主的东南亚。今年 10 月,我们刚刚完成了 8200 万美金的最新轮融资,这笔资金将帮助我们在美国推出 H200 GPU 云服务。

AI 出海趋势与算力挑战

从 1990 年到 2010 年,互联网技术发展了 20 年,达到了技术普惠点。移动互联网从 2005 年到 2020 年,15 年的发展也达到了技术普惠点。AI 时代的到来,可以说是从 2022 年或 2023 年初开始的,它相当于 1995 年的互联网,未来的发展潜力巨大,爆发场景多样。目前国内互联网发展进入失速期,我们必须要出海,在海外寻求更多的增长机会。

目前,全球有大约 1700 多个与 AI 相关的 Web 产品和 APP,其中中国的 AI 产品有 280 个,出海类产品占 30% 以上,大约 95 个。我截取了中国 AI 产品榜上前 30 名的 APP,从 1 月到 9 月份,它们的月活跃用户数(MAU)翻了一倍,增速非常快。在中国内地开发 APP,你可能需要投入大量资金进行广告和流量购买,而在海外,你可以以较低的成本获得更多的用户增长。因此,大家都在积极开发出海的 AI 相关产品。目前,我们的出海产品与 ChatGPT 相比还有很大差距,这意味着我们的增长空间非常巨大。

在讨论出海相关的 AI 领域时,我们不可避免地要提到 AI 的三大要素:数据、算法和算力。数据和算法无疑是每家企业的核心要素,而算力则是基础设施。

在海外,我们面临的算力挑战主要有三个方面。首先,国内的高端 GPU 算力明显不足,因为一些高端 GPU 无法进入中国大陆。因此,要获得更强更新的 GPU 服务或算力,我们必须出海。其次,海外的 IDC 及其上下游产业链存在很多不确定性,因为大家对海外市场不像对国内市场那样了解,所以在选择 AI 基础设施服务商时非常关键,因为你无法实地考察和关注这些信息。第三,GPU 基础设施与 CPU 相比,面临的挑战不是一个量级的,因为 AI 技术火热也不过近两年,大家对大规模基础设施的经验还不足,因此在海外的 AI 基础设施算力,尤其是在稳定性方面,会面临很大的挑战。

Meta 最近披露了他们 LLama 3 大模型预训练的报告,他们使用了超过 16,000 张 H100 GPU,训练了 54 天,最终训练出了 LLAMA 3 405B 模型。在这个过程中,总共出现了 466 次故障,其中 419 次是意外故障。可以想象,在训练过程中,16,000 多张 GPU 卡每三个小时就会故障一次,GPU 的稳定性确实面临很大挑战。在这 419 次意外故障中,有 200 多次与 GPU 相关,而纯 CPU 相关的故障只有 2 次。这说明 GPU 时代的稳定性挑战至少比 CPU 时代大两个量级。因此,大多数公司没有能力自己维护超大规模的 GPT 群的稳定性。选择 GPU 云服务商时,其基础设施的稳定性至关重要。

GMI Cloud 高稳定性 GPU 集群
架构解析与故障预防策略

(以下为 GMI Cloud Jay Hsueh 的分享)

集群引擎

GMI Cloud 致力于为客户提供高效率、高品质的 GPU 集群服务。首先,我们关注底层硬件,确保算力平台的高效性。同时,我们的软件与硬件紧密结合,实现全面的监控和管理,以便在客户遇到问题时能够及时响应和处理。

我们的全平台 AI 应用架构从最底层的高效能 GPU 硬件开始,包括高性能的网络和存储设备,这些都是构建高效 GPU 集群的基本要素。在上层,我们的软件在 IaaS 层将这些高速硬件资源整合起来,通过网络中间层提供多元化的 AI 应用服务。

存储

我们不可能为每个存储部分都提供最高效的配置,因为高效的存储设备通常涉及更高的成本。例如,在进行 AI 训练时,需要快速处理数据,我们可能会提供 NVMe 这样的磁盘来满足存储需求。对于需要大规模并行运算的场景,我们可能会使用跨节点、跨 GPU 的并行高速档案系统,以便快速传输和处理数据。

我们提供不同级别的存储选项,包括 L1、L2 和 L3。L1 级别的存储适用于需要高性能计算的场景,提供高 IO 的存储解决方案。计算完成后,结果数据可以存储在 L2 级别的存储中,也就是 SAS 存储或平均性能的存储。对于存放多年数据的情况,我们可能会将数据归档到 L3 级别的存储中。

云集群引擎

GMI Cloud 自主研发了 Cluster Engine。这个平台整合了对 GPU 卡、GPU 节点、存储以及高效网络的控制,并提供三种核心服务:裸机服务、容器 Kubernetes 服务和虚拟化服务。对于只需要裸机资源来构建自己应用服务的客户,可以使用基础的裸机服务设施。而在 HPC 领域,我们通常不使用 Kubernetes 技术,而是采用 Slurm 服务来管理 HPC 作业。

Cluster Engine 的设计理念是将 AI 服务和 HPC 等复杂运算服务简化,使其易于所有人使用。我们的 UI 和工作流程设计不从工程层面出发,而是融入了日常操作手机 APP、购物等生活化理念,让用户以最简单的方式获取 GPU 集群资源。无论是裸机、容器还是虚拟化资源,用户都可以像购物一样轻松获取,无需承担额外的学习成本就能操作这个平台。

Cluster Engine 架构

GMI Cloud Cluster Engine 是跨全球数据中心运行的,负责管理和控制不同数据中心的 GPU 资源。Cluster Engine 将中央运营中心设在 GCP(Google Cloud Platform)上,通过它与各个数据中心进行连接和管控。这个平台不仅服务于公有云层面,还为为客户提供了私有化部署服务。如果客户选择 Cluster Engine 构建自己的云环境,他们可以利用这一平台的特性来管理不同部门或海外分公司的资源,包括机房中的 GPU 资源。无论是公共云还是私有云环境,Cluster Engine 都能提供适用的资源管理场景。

VPC 架构

在出海应用 GPU 资源时,客户非常关心他们的数据和资源安全。因此,虚拟私有云(VPC)架构变得至关重要。每个企业客户都希望他们租用的 GPU 资源是专属的、独立的,不希望与他人混用。然而,许多云平台仅在上层 UI 层面进行了资源的逻辑隔离,而在底层的网络和存储部分并没有完全隔离,这可能导致安全风险。

GMI Cloud 的 Cluster Engine 则在上层 UI 层面为每个账户进行管理隔离,同时在底层的存储、网络和 GPU 集群部分为每个租户提供了完全独立的隔离。这意味着每个租户的底层网络不会相互影响,资源也不会与他人共用。这样确保了数据的安全性,因为如果底层网络和存储没有被完全隔离,数据很容易被未授权访问。无论是裸机、容器还是虚拟化层的服务,只要客户租用,都会提供一个完整的独立私有云环境,确保是一个完整的 VPC 架构。这样可以确保企业数据和资源是安全隔离的,不会被其他租户或外部威胁所影响。

IB 组网

在 GPU 平台资源方面,为了充分发挥 GPU 的潜力,我们使用了全球最高速的 IB(InfiniBand)网络,确保每张 GPU 卡都能达到最佳效率。IB 网络不走传统的七层网络模型,而是简化到只有四层架构来进行网络传输,因此具有极低的延迟和高性能。

IB 网络与一般的以太网有所不同,它需要特殊的管理。在管理上,IB 网络不像以太网那样可以使用 VLAN 等技术进行管理,但还是需要提供 VPC 架构来实现网络的隔离。我们为 IB 网络提供了独立的网络切割,确保用户在使用高速 IB 网络时,其资源不会与其他用户混用,保障网络的独立性和安全性。

由于 IB 网络的高速特性,Cluster Engine 能够管理大规模的万卡集群,并且支持持续扩展。在底层架构进行扩展时,上层服务不会受到任何影响,也不会导致任何宕机。

Ray 类分布式架构

在 AI 计算领域,我们经常需要一个更高效、更有效的工具来管理 AI 运算作业。为此,我们引入了 Ray 类分布式架构来帮助客户更容易地管理这些 AI 作业。

AI 作业往往涉及多个人、多个作业同时进行计算,或者需要进行作业分配。Ray 类分布式架构提供了一个平台,使 AI 作业的管理变得更加简单和高效,从而加速了 AI 运算的过程,并优化了资源的分配和利用。

由于是多租户环境,我们提供了完整的用户组管理功能。我们的管理不仅仅局限于用户和组的层面,还包括了组织层级的概念。此外,我们还提供了所谓的“二房东”服务。企业可以在我们的组织架构下创建自己的子组织,并自行管理其组织架构。

主动监控

GMI Cloud 平台的主动监控功能确保底层 GPU 集群的稳定性。这种监控系统能够及时发出告警,帮助我们确认并预防可能发生的问题。监控系统能够在问题发生之前就侦测到潜在的风险,使我们的客户工程师能够迅速收到警示并采取行动、修复问题。

我们的监控系统界面设计简单直观,所有的用户都能快速、轻松地获取到重要的信息。我们的目标是提供一个用户友好的 UI 界面,用户能够一目了然地掌握关键信息,从而提高操作效率和响应速度。

推理引擎

Cluster Engine 平台位于 IaaS 层和 PaaS 层之间,我们正在向 SaaS 层扩展。随着 AI 训练在过去两年逐渐达到饱和,未来的重点将逐渐转向 AI 推理。AI 模型训练完成后,需要在实际应用场景中进行部署和实践,因此推理部分变得越来越重要。为了协助客户处理推理应用,我们在 Cluster Engine 上叠加了一个名为 Inference Engine 的 SaaS 服务。

推理应用与 AI 训练不同,它不需要占用大量的 GPU 资源。例如,AI 训练可能需要 10 台 GPU 节点,每个节点上有 8 张 H100 卡进行大规模计算,而推理则强调快速稳定地进行 AI 运算和模型推理。因此,推理占用的 GPU 资源相对较小,但需要能够及时定位到资源。Inference Engine 可以根据客户的推理作业需求,在全世界的 GPU 资源中选择距离最短、最适合作业的位置,快速生成响应。

推理作业通常不需要占用整张 GPU 卡的资源,因此我们会采用资源共享的方式,快速分配 GPU 上的计算资源。例如,如果一个推理作业只需要占用 GPU 资源 5 分钟,它就可以快速占据一个 GPU 的份额,并迅速将结果反馈给用户。这样,来自世界各地的客户都可以通过大量的推理请求,利用 Inference Engine 在全球范围内的 GPU 资源,实现 GPU 资源利用率的最大化。

Inference Engine 服务将与 Cluster Engine 的基础设施紧密结合,形成从 IaaS、PaaS 到 SaaS 的完整三层架构,确保用户在 AI 推理过程中获得最佳的支持和资源利用。

验证体系

验证体系是为了确保通过软件管理的整个基础设施架构能够实现全球最高稳定性的 GPU 集群。

作为全球排名前十的 NCP,我们在构建 GPU 集群时与 Nvidia 密切合作,并必须通过 Nvidia 的群级认证。我们的合作程度深入到从 GPU 设计开始,比如在泰国的 IDC 建立一个 127 台 GPU 集群,从 IDC 的选址、空间、散热、电力到整个线路配置,再到 OS 层、IaaS、PaaS、SaaS 的各个环节,每个步骤都需要与 Nvidia 的技术团队讨论,并得到他们的预先规划和认可后才能执行。如果没有高度的规划能力和技术能力,Nvidia 不允许我们提供这样的服务。因为 Nvidia 希望作为 NCP 的我们,能够确保每张卡都能达到 Nvidia 规定的最高效能,并且故障率低。Nvidia 希望我们提供给客户的产品是经过技术验证、软硬件都到位的,以确保提供更高效稳定的硬件性能。

除了 Nvidia 的认证,我们在每个环节都进行了大量测试,并为每个环节提供测试报告。如果客户对我们的 GPU 稳定性有疑问,我们也会提供这些稳定性测试报告供客户参考。

故障预防策略

硬件故障是不可避免的,除了通过软件快速调配资源外,还需要进行硬件更换。为了快速更换有问题的硬件,我们与供应商建立了非常密切的合作关系,确保能够迅速获得供应链资源。一旦硬件发生故障,我们会及时告警并确认,将客户服务迁移到正常的硬件上继续运算,同时通知供应链厂商,请他们将好的元件送到我们的数据中心进行更换。通常情况下,我们能够在下一个工作日解决硬件问题。如果客户需要更高级的服务,我们也提供一天内修复的选项,以实现快速硬件修复和更换。

在每一层的保障中,我们提供问题的源头追溯和完整的监控服务。我们还有品质保障的 SLA 来确保服务质量。资源专家会 7×24 全天候不间断与客户及时互动,确保 GPU 集群的最高稳定性和效能。

AI Infra 选型思考与实践

在 AI 基础设施服务方面,GMI Cloud 为客户提供两种不同的选择,以满足他们不同的需求。第一种选择是按需服务(on demand),这种方式类似于公共云服务,适合短期租用。例如,如果客户需要快速训练一个模型或者进行临时的计算任务,他们可以选择这种服务。客户可以在线选择所需的 GPU 数量和规格,支付后立即获得资源,方便快捷。

另一种选择是长期预订资源(Private Cloud),这适合需要进行长期研发项目的客户。在长期研发过程中,客户的数据会持续在系统中进行运算和存储,他们不希望每次都在按需服务结束后将数据复制出来,下次使用时再复制回去。因此,对于希望进行长期部署的客户,我们提供私有预留的方式,客户可以租用一定数量的 GPU 集群,比如 50 台 GPU 的集群,以私有形式租用半年或一年。这样,客户的数据可以完整保留在同一个位置,持续进行运算,避免了按需服务中资源归还后需要重新配置和数据迁移的问题。

 

(文:AI前线)

欢迎分享

发表评论