semianalysis 长文 关于Meta 砸钱、抢人、领导力、建帐篷、计算、数据和超级智能

Meta正试图用钱砸出一条通往超级智能的路。

据此前曝光的消息显示,Meta以300亿美元估值收购了Scale AI 49%的股份。这家每年产生1000亿美元现金流的广告巨头,终于意识到在基础模型性能上已经落后了。

更让人意外的是,当Meta失去开源模型领头羊地位被DeepSeek超越后,扎克伯格亲自挂帅,开始了一场前所未有的AI军备竞赛。

他正在组建一个全新的「超级智能」团队,开价2亿美元4年合同挖角顶尖AI人才。这个价格是同行的100倍。更夸张的是,据说有些给OpenAI研究领导层的10亿美元报价都被拒绝了。

但最让人震惊的是,扎克伯格把整个数据中心建设手册扔进了垃圾桶,开始在「帐篷」里建设数十亿美元的GPU集群

Meta的AI增量主义困境

相比OpenAI这样的纯AI实验室,Meta和谷歌一直采用「AI增量主义」策略——通过改进推荐系统和生成式AI来增强现有产品,改善广告定向、内容标记和内部工具。

这个策略在财务上回报丰厚,让Meta成功抵御了苹果通过iOS 14.5的App追踪透明度功能对其用户追踪的打击。

但在大语言模型领域,Meta和谷歌的表现都有些令人失望。原因之一是资本配置主要用于核心业务而非追求超级智能。

「今年我们的资本支出增长既用于生成式AI,也用于核心业务需求,其中大部分资本支出支持核心业务。」

来源:Meta 2025年Q1财报电话会议

这种资源分配差异在OpenAI和Meta的对比中一目了然。当我们衡量生成式AI消费应用的用户粘性时,Meta和谷歌在覆盖面和参与度上明显落后于ChatGPT。

从建筑到帐篷的疯狂转型

仅仅一年前,Meta刚刚废弃了使用十年的「H」形数据中心蓝图,转向新的AI优化设计。

现在到了2025年,扎克伯格决定再次重新发明这个策略。

受马斯克xAI前所未有的上市速度启发,Meta正在拥抱一种将速度置于一切之上的数据中心设计。

这种设计不追求美观或冗余,只追求快速上线计算能力

从预制的电力和冷却模块到超轻结构,速度是关键——这里甚至没有备用发电(看不到任何柴油发电机)。

电力目前使用附近Meta现场的变电站。Meta可能使用复杂的工作负载管理来最大化利用从电网获得的每一瓦电力。在最热的夏天,它甚至可能需要关闭工作负载。

Prometheus 1GW AI训练集群——「全方位」基础设施策略

Meta正在俄亥俄州悄悄建设世界上最大的AI训练集群之一。据其基础设施组织内部消息,他们将这个集群称为Prometheus

为了击败竞争对手的AI实验室,Meta采取了「全方位」的基础设施策略:

  • 自建园区
  • 向第三方租赁
  • AI优化设计
  • 多数据中心园区训练
  • 现场、表后天然气发电

通过结合自建和租赁,Meta的扩张速度更快。事实上,他们在2024年下半年预租的容量超过了任何超大规模企业,主要在俄亥俄州。

当本地电网跟不上时,Meta采取了完全的「马斯克模式」。在Williams的帮助下,他们正在建设两个200MW的现场天然气发电厂。

第一个发电厂的设备包括:

  • 3台Solar Turbines的Titan 250涡轮机
  • 9台PGM 130涡轮机
  • 3台西门子能源SGT400涡轮机
  • 15台CAT 3520往复式发动机

击败Stargate规模:Meta的Hyperion 2GW集群

当所有人都在关注阿比林高调的Stargate数据中心时,Meta已经筹划应对措施超过一年,并取得了巨大进展。

路易斯安那州的集群将在2027年底成为世界上最大的单个园区,第一阶段IT功率超过1.5GW。

消息人士透露称,这个项目内部代号为Hyperion

Meta在2024年底破土动工,目前正在积极建设电力基础设施和数据中心园区。

Llama 4失败——从开源王子到巨兽乞丐

在深入探讨超级智能人才竞赛之前,我们应该看看Meta是如何陷入这种尴尬境地的。

在以Llama 3领导开源前沿之后,Meta现在发现自己落后于中国公司的DeepSeek。

从技术层面来看,导致失败的主要原因包括:

分块注意力机制的问题。Meta为Behemoth选择了分块注意力,这可能是个错误。

标准因果注意力就像从左上角扇形展开的一系列扩展三角形,代表每个后续token的注意力大小。token翻倍,三角形面积就翻四倍。

分块注意力将这个三角形分解成固定大小的块。每个块都将注意力重置到新的「第一个」token。虽然减少了内存提高了效率,使得更长的上下文成为可能,但权衡并不值得。每个块中的第一个token无法访问先前的上下文。

其他模型中使用的滑动窗口注意力提供了一种更平滑的替代方案:注意力窗口逐个标记向前滑动。这保持了局部连续性,即使远程推理仍然需要多层来传播上下文。

专家选择路由也是个问题。大多数现代LLM使用专家混合架构,其中token根据路由器在每层之间路由到不同的专家。

Meta在训练过程中从专家选择切换到token选择路由,导致专家没有很好地专业化。

数据质量是自己造成的伤害。Llama 3 405B在15T token上训练,而Llama 4 Behemoth需要大量更多的token,大约是3-4倍的数量级。获得足够高质量的数据是西方超大规模企业无法通过复制其他模型输出来走捷径的主要瓶颈。

在Llama 4 Behemoth之前,Meta一直使用公共数据(如Common Crawl),但在运行过程中切换到他们构建的内部网络爬虫。虽然这通常更优越,但也适得其反。团队在清理和去重新数据流方面遇到了困难。这些流程还没有经过大规模的压力测试。

此外,与OpenAI和DeepSeek等所有其他领先的AI实验室不同,Meta不使用YouTube数据。YouTube讲座转录和其他视频是数据的绝佳来源,没有这些数据,公司可能难以生产多模态模型。

弥合人才差距

在基础设施改造进行中并吸取了技术教训后,Meta的GenAI 2.0战略现在转向超级智能的下一个要素:人才

扎克伯格了解相对于领先AI实验室的人才差距,并亲自接管了招聘工作。

他的使命是建立一个小而极其人才密集的团队,随意提供数千万美元的签约奖金。目标是创造「飞轮效应」:顶级研究人员加入这次冒险,为项目带来可信度和动力。

最近的高调招聘已经证明这种策略正在奏效:

  • Nat Friedman,前GitHub首席执行官
  • Alex Wang,前Scale AI首席执行官
  • Daniel Gross,曾是SSI的首席执行官和联合创始人,SSI是Ilya Sutskever的初创公司

招聘宣传很有力:每位研究员无与伦比的计算资源、打造最佳开源模型系列的机会,以及接触超过20亿日活跃用户

通常为4年2-3亿美元的报价也加强了这种宣传。因此,Meta已经从OpenAI、Anthropic和许多其他公司获得了优秀人才。

收购、Scale AI等

据报道,扎克伯格向Thinking MachinesSSI都提出了收购要约,但被拒绝了。

虽然有人指出扎克伯格「退而求其次」选择了Scale AI,但情况并非完全如此。如前面所讨论的,Llama 4许多问题的核心是数据问题,Scale收购是直接解决这个问题的举措。

Alex将带来Scale的许多顶级工程师,特别是专门从事Meta急需的评估的SEAL实验室。SEAL开发了推理模型评估的顶级基准之一,HLE(人类最后的考试)。

随着Nat Friedman和Daniel Gross加入团队,Meta不仅获得了精英运营者,还获得了AI社区中最多产和最受尊敬的两位投资者。

更多购买更多节省:OBBB版

扎克伯格选择开始这场支出狂潮的时机再好不过了。

One Big Beautiful Bill为超大规模企业提供了一些特定的税收优惠,可以大大加速现在建设和做大的税收激励。由联邦政府资助的超级智能是现代曼哈顿计划。

当Meta从「帐篷」里建GPU集群,从2亿美元挖人,从收购Scale AI到建设Prometheus和Hyperion超级集群,也许并未所有人看好,甚至会担心薪资倒挂、文化、组织等问题将在后续突显,但小扎的雷厉行动或许从另一个角度展示了:

这或许不只是一家公司在追赶技术,而是一个帝国正在开始觉醒。

Meta曾经是AI增量主义的代表——用AI改进广告,优化推荐,提升用户体验。这种策略让它成为印钞机,每年产生1000亿美元现金流。

而当DeepSeek超越Llama,当ChatGPT用户量碾压Meta AI,当曾经约架而未遂的马斯克速度下Grok 4终于问鼎江湖,扎克伯格终于明白:增量创新救不了落后的基础模型

于是我们看到了科技史上最疯狂的转型之一:

抛弃传统数据中心,在帐篷里堆GPU。不是因为美观,不是因为省钱,只是因为

用100倍同行的价格挖人。不是因为人才稀缺,而是要让竞争对手也付不起

收购Scale AI的49%。不是因为缺钱,而是因为数据质量决定模型上限

建设1GW、2GW的超级集群。不是因为算力过剩,而是因为超级智能需要超级算力

对应的细节是:当本地电网供电不足时,Meta直接建了两个200MW的天然气发电厂。15台发动机、12台涡轮机,就这样堆在数据中心旁边。

当一家公司开始自己发电训练AI时,或许,这已不再是生意,而是战争。

扎克伯格作为硅谷最后几个还在掌舵的创始人之一,他比任何人都明白:在AI时代落后,意味着在未来落后。

而Meta,正在用最野蛮也最有效的方式追赶——砸钱、挖人、堆算力

这已经无关优雅,而是关乎效率关乎存亡




[1]

semianalysis: https://semianalysis.com/2025/07/11/meta-superintelligence-leadership-compute-talent-and-data/



(文:AGI Hunt)

发表评论