
据人士透露,OpenAI 近期商讨了购买价值数十亿美元的,数据存储硬件和软件事宜。为安置这些硬件,公司首次考虑自建数据中心。
此举将使 OpenAI 一夜之间成为全球最大的存储客户之一,也反映出其希望更严格控制对开发人工智能至关重要的数据。
这些讨论正值 OpenAI 减少对微软依赖之际,微软长期以来为其提供云计算服务器以支持计算能力和存储需求。此举表明 OpenAI 不希望完全依赖外部公司满足存储需求。截至目前,OpenAI 尚未独立运营任何数据中心。
存储协议还可能帮助 OpenAI 节省成本。随着其使用更多来自 Oracle 和 CoreWeave 的服务器,加之微软的服务,将数据从一个提供商迁移至另一个,可能比将数据保留在自有设施中成本更高。
OpenAI 尚未敲定协议,可能选择利用存储谈判,作为与云服务提供商讨价还价的筹码。
OpenAI 的存储采购计划与其 1 月份联合投资者软银宣布的“星际之门“数据中心项目相关,该项目旨在投入 5000 亿美元开发新设施。OpenAI 已讨论在得克萨斯州阿比林市的星际之门数据中心附近部署存储服务器,并计划从云服务提供商甲骨文处租赁大量英伟达图形处理器。
据参与谈判的人士透露,数据中心通常包含为 AI 提供算力的计算机架和存储机架,但 OpenAI 探讨了建立专门用于存储的独立数据中心。该设施将能与阿比林市的 GPU 数据中心及该地区可能使用的其他设施进行数据交互。
计划数据中心容量翻三倍
这项潜在的存储协议源于 OpenAI 通过 Stargate 项目,立志基于“拥有最强算力的公司将赢得 AI 竞赛“的信念,成为全球最大的数据中心客户之一。
该公司向投资者透露,计划今年将其数据中心容量扩充三倍以上,设施能耗接近 2 吉瓦,这一数字包括其租用微软服务器,用于开发 AI 和运行 ChatGPT 的部分。
据知情人士透露,OpenAI 高管向员工表示,到今年年底,其研究人员用于训练新 AI 的算力将比 2024 年底增加约八倍。这部分算力与支撑 ChatGPT 运行的服务器资源是分开计算的。
尽管 AI 算力焦点多集中在驱动大型模型开发集群的英伟达 GPU 上,但研究人员同样需要高速存储支持。OpenAI 从自有设施获取数据的速度可能快于微软的存储服务器。
在长达数周甚至数月的 AI 模型开发过程中,研究人员需要频繁保存工作成果,此时高效存储系统显得尤为重要。
据参与谈判的一位人士透露,OpenAI 正在寻求高达 5 艾字节的存储空间。为便于理解这一数字,截至 2021 年,苹果公司在其使用的所有云服务提供商处存储了超过 8 艾字节的数据,主要用于处理通过 iCloud 服务存储的媒体和文档。
保存检查点
在开发新 AI 模型长达数周或数月的过程中,存储空间显得尤为重要,研究人员需要频繁保存他们的工作进度。
研究人员会保存他们用于开发新模型的算法快照(也称为检查点)以及权重——决定模型性能的设置。保存这些检查点让 AI 开发者能在调整权重后遇到问题时,从流程中的特定点恢复训练。
近期,OpenAI 潜在的存储采购成为存储行业的热门话题。其存储软件合同的可能竞标者包括 Pure Storage、Vast Data、DDN、MinIO 和 Weka。
戴尔和慧与科技等服务器制造商可能竞逐 OpenAI 交易中的服务器硬件部分。
目前尚不清楚 OpenAI 打算如何支付这些存储资产。
OpenAI 与软银已各自向 Stargate 合资企业承诺投入 190 亿美元,用于开发数据中心或租赁其他公司的设施容量。
到三月底,OpenAI 计划筹集其中约 100 亿美元的资金。
资料来源:
https://www.theinformation.com/articles/openai-discusses-building-first-data-center-storage?rc=o6xpry
编译:ChatGPT
(文:Z Potentials)