
全球最大的英伟达人工智能芯片客户之一OpenAI,近期开始租用谷歌的 AI 芯片来驱动 ChatGPT 等产品,据知情人士透露,这是该公司首次大规模采用非英伟达芯片。
• OpenAI 希望谷歌 TPU 能帮助降低其运营成本,此举是 OpenAI 为减少对微软和英伟达依赖的多元化努力之一
• 谷歌以“硬件+云绑定”策略(TPU仅限云租赁)争夺市场份额
这一举措反映出OpenAI 正逐步减少对微软数据中心的依赖,同时可能推动谷歌的张量处理单元(TPU)作为更廉价替代方案,挑战主导 AI 芯片市场的英伟达图形处理单元(GPU)。
该协议也表明,谷歌长期在几乎所有与AI 相关的软硬件领域开发技术或业务的战略可能正在奏效。这位知情人士表示,OpenAI 希望通过租用谷歌云的 TPU 来降低推理计算成本——该术语指在 AI 完全开发完成后在服务器上运行的过程。
OpenAI 的计算需求正快速增长:ChatGPT 的付费订阅用户可能已超过 2500 万,较年初的 1500 万大幅增长,每周还有数亿用户免费使用该服务。
OpenAI 主要通过微软和甲骨文租用英伟达服务器芯片,用于模型开发训练及支持 ChatGPT 运行。去年 OpenAI 为此类服务器支出超 40 亿美元,训练与推理各占近半,预计 2025 年 AI 芯片服务器支出将达近 140 亿美元。
据谷歌云员工透露,虽然谷歌在AI 模型开发领域与 OpenAI 激烈竞争,但并未向对手出租其最强性能的 TPU 芯片。这表明谷歌目前优先将高端 TPU 留给自家 AI 团队开发 Gemini 模型。目前也不清楚 OpenAI 是否有意采用 TPU 进行 AI 训练。
从谷歌云租用TPU 的其他企业包括苹果、Safe Superintelligence 和 Cohere,部分原因是这些公司的员工曾有谷歌任职经历,熟悉 TPU 的运作机制。
与OpenAI 同为全球最大 AI 芯片客户之一的 Meta ,据知情人士透露,近期也曾考虑采用 TPU 芯片。但 Meta 表示目前并未使用该产品。
谷歌云同样向客户提供搭载英伟达芯片的服务器租赁服务,且该业务收入仍远超TPU 租赁——因为英伟达芯片是行业标准,开发者对其专用控制软件更为熟悉。谷歌此前已下单超 100 亿美元的英伟达最新 Blackwell 服务器芯片 ,并于今年 2 月向部分客户开放使用。
谷歌约十年前启动 TPU 研发项目,自 2017 年起向需要训练自有 AI 模型的云客户提供该芯片服务。
OpenAI 今年初首次转向 Google Cloud,因其 ChatGPT 图像生成工具爆红后, 使其使用的微软推理服务器不堪重负 。但这一交易目前正使谷歌云自身的数据中心容量吃紧。
据几位知情人士透露,近几周谷歌接洽了主要出租英伟达 GPU 的其他云服务提供商,询问他们是否也会在数据中心安装 TPU,以服务某位未具名的谷歌云客户。例如,谷歌最近就与 CoreWeave 讨论了在其数据中心租赁 TPU 机位的事宜。
虽然训练AI 时没有公司能媲美英伟达芯片的性能,但越来越多的企业正在开发推理芯片,以减少对英伟达的依赖,并有望长期降低成本。目前尚不清楚是否达成了任何协议。迄今为止,谷歌仅通过自有设施提供TPU 服务。
谷歌云发言人Jacinda Mein 证实,公司正在谷歌数据中心外“寻找空间和电力资源“,“以满足单个谷歌云客户的短期需求“。“这些讨论绝不会改变我们的战略,“她表示,重申了谷歌更倾向将 TPU 保留在自有数据中心的立场。
挑战英伟达
尽管没有公司能在训练AI 的芯片性能上与英伟达匹敌,但越来越多的企业正在开发推理芯片,以减少对英伟达的依赖,并期望从长远来看降低成本。
其他主要云服务提供商如亚马逊和微软,以及OpenAI 和 Meta 等大型人工智能开发商,已纷纷启动自研推理芯片项目,取得的成果各不相同。
云服务提供商在争取大客户使用其替代英伟达芯片的方案时,往往不得不提供财务激励。例如Anthropic 同时采用亚马逊和谷歌的 AI 芯片,但这两家公司各自都为其提供了数十亿美元资金支持。目前尚不清楚谷歌是否通过折扣或积分等优惠措施来吸引 OpenAI 使用 TPU 芯片。
OpenAI 与谷歌的芯片合作可能对微软造成打击,后者既是 OpenAI 最亲密的合作伙伴也是早期支持者。微软已投入大量资金开发 AI 芯片,并寄望于 OpenAI 能采用该产品。
但微软在 AI 芯片研发过程中遭遇困境,近期推迟了下一代产品的发布时间表 ,这意味着其芯片在面世时很可能仍无法与英伟达产品抗衡。
参考资料
编译:ChatGPT
(文:Z Potentials)