谷歌发布第七代TPU：性能大涨，专为大模型设计

谷歌发布了其第七代张量处理单元（TPU）——Ironwood，这也是首个专为大模型设计的AI芯片，适用于Gemini 2.5、Claude 3.7和Claude 3.5等先进模型。

与前代Trillium相比，Ironwood的能效提升了两倍；每块芯片配备192GB高带宽内存（HBM）和4.6PFLOPS的计算能力。相较于2018年发布的首代Cloud TPU，Ironwood在能效方面提高了近30倍，有效应对了企业界对先进模型不断增长的电力需求这一挑战。

每块Ironwood芯片的内存容量大幅增加至192GB HBM，是Trillium的六倍，带宽达到了每秒7.2至7.4太字节，极大地支持了大型模型的处理而无需频繁的数据传输。

此外，谷歌增强了芯片间的互连至每秒1.2太比特的双向带宽，促进了大规模分布式处理之间更快速的信息交流。

这款芯片不仅集成了改进版SparseCore以加速排名和推荐系统中的超大嵌入处理，而且紧密整合到了谷歌的AI超级计算机架构中，这是一种采用模块化集群设计，结合定制芯片、分布式系统软件及网络硬件的技术体系。

目前，Ironwood不会对外销售，只会在谷歌云上提供两种服务配置：一种是满足标准推理需求的256芯片版本，另一种则是拥有9,216芯片、可提供42.5exaFLOPS计算能力的大规模配置。

每颗芯片的峰值计算能力可达4,614TFLOPS，使其性能与NVIDIA的Blackwell B200芯片处于同一层级。

（文：AIGC开放社区）