作者:Eric Schmidt 和 Dhaval AdjodahEric Schmidt 是谷歌前首席执行官兼董事长,现为 Schmidt Sciences 联合创始人及无党派智库 Special Competitive Studies Project 的主席。Dhaval Adjodah 是 MakerMaker.AI 的联合创始人兼首席执行官。
Z Highlight
-
中国公司已经真正成为开源领导者,而大多数美国主要科技公司(除了 Meta 之外)仍然严格保密其技术方法。事实上,这已经成为中国 AI 公司的发展趋势——从初创公司 Minimax 到科技巨头 阿里巴巴,越来越多的企业正在向全球开发者免费开放其 AI 模型。 -
目前,全球 AI 领域的权力格局似乎正在围绕两个关键维度发生变化:一是中美之间的竞争,二是封闭与开源模式的较量。 -
通常,即使是资金最充足的大学实验室,也因计算资源和数据限制而难以在 AI 研究中有所突破。但随着 DeepSeek 的创新,大公司对 AI 研发的垄断地位可能正在被削弱。 -
美国若要保持创新优势,不能仅依赖封闭模型的领先地位,而必须加速开源生态的发展,并推动训练方法的共享,同时加大对 AI 研发的投资。
如今,人工智能领域的变革速度之快已成为老生常谈。然而,就在最近,即便是站在 AI 研究最前沿的专家们也被一家中国公司所震惊。
上周,AI 公司 DeepSeek 发布了其 R1 推理模型,该模型在多个逻辑任务(包括数学和编程)上的表现与 OpenAI-o1 旗鼓相当(并且远超 ChatGPT 各版本)。此外,R1 的运行成本也极低,仅为 OpenAI 费用的约 2%。而就在本周一,DeepSeek 又发布了 Janus Pro,这是一款小到可以在笔记本电脑上运行的图像生成模型,据称其性能优于 OpenAI 的 DALL⋅E 3。DeepSeek 的 AI 创新速度震惊全球。
更值得关注的是,DeepSeek 的所有模型都是开源的——在这种情况下,这意味着它们的训练权重也是公开的,任何人都可以复现并在其基础上进行开发。
这是一个颇具戏剧性的时刻:中国公司已经真正成为开源领导者,而大多数美国主要科技公司(除了 Meta 之外)仍然严格保密其技术方法。事实上,这已经成为中国 AI 公司的发展趋势——从初创公司 Minimax 到科技巨头 阿里巴巴,越来越多的企业正在向全球开发者免费开放其 AI 模型。
此前,在美国构建的闭源模型(如 OpenAI 的 o3 和 Anthropic 的 Claude 3 Opus)被认为是领先的行业标准。而开源模型(尤其是中国的开源模型)通常被认为落后几个月。然而,DeepSeek 的 R1 和 Janus Pro 证明了技术主导权的转变可能比想象中更快。这些模型的发布不仅搅动了市场,也导致美国科技股大幅下跌。目前,全球 AI 领域的权力格局似乎正在围绕两个关键维度发生变化:一是中美之间的竞争,二是封闭与开源模式的较量。
支持闭源模型的企业押注于通过保护模型权重和训练方法来保持技术领先优势。而开源支持者则认为,透明度可以让更多人基于现有成果进行创新,从而加速系统的发展,使其迅速赶上甚至超越封闭模型。如果这一理论成立,AI 生态系统将被彻底颠覆。
开源模型通常使用成本更低,因此,当市场上存在两个能力相当的模型时(一个开源,一个封闭),开源模型更可能被广泛采用,从而形成战略优势。目前,美国已经拥有全球最好的封闭 AI 模型。要保持竞争力,美国还必须支持强大的开源生态发展。
中美在 AI 领域的竞争尚未分出胜负。然而,DeepSeek 能够以远少于美国科技巨头的资源与其竞争,这给美国大厂带来了巨大压力。美国针对中国的出口管制政策旨在切断其获得最先进计算芯片的渠道,以遏制中国在 AI 领域的发展。然而,事实可能恰恰相反——芯片短缺反而迫使中国企业提高计算效率,并探索降低训练成本的新方法。
例如,DeepSeek 发现了一种新的大模型训练方式,可以绕过传统的监督微调阶段,从而大幅降低训练成本。他们甚至推出了R1-Zero,一种完全跳过微调步骤的模型,以挑战研究界对微调必要性的固有认知。
DeepSeek 的成功还引发了人们对预训练重要性的重新思考。传统的 AI 训练方法依赖于基于大规模文本数据的预测任务(即训练模型预测下一个单词)。这一过程需要大量 GPU 计算资源和数据,而 OpenAI 联合创始人 Ilya Sutskever 最近表示,我们可能很快就会耗尽互联网上可用于训练的数据。
然而,最近出现了一种新的提升模型性能的方法。OpenAI 在 12 月发布的 o1 模型首次引入了一种类人推理的方法:模型可以通过自我反思(self-reflection)来推理,就像人类思考一样,利用中间步骤和自我纠正来得出最终答案。这一训练方法原本是 OpenAI 严格保密的核心技术,但 DeepSeek 通过发表论文公开了这一过程,使其他研究者也能应用这一方法。
更重要的是,DeepSeek 还证明了可以用更低成本实现这一目标。他们采取了一种新的方法:利用 Meta 公开的 Llama 3 作为基础模型,通过强化学习(reinforcement learning)进行推理训练。这种方法采用人类反馈和奖励机制进行试错学习,最终让模型自发学会推理、在遇到瓶颈时回溯,并探索新的解法。这种技术消除了从头开始训练新模型的昂贵需求,极大地降低了 AI 研发成本。通常,即使是资金最充足的大学实验室,也因计算资源和数据限制而难以在 AI 研究中有所突破。但随着 DeepSeek 的创新,大公司对 AI 研发的垄断地位可能正在被削弱。
短期来看,美国的顶尖 AI 公司不太可能改变其商业模式,而开源与封闭模式的竞争也将逐步找到市场平衡,不同用户将根据需求选择不同的产品和价格策略。
然而,DeepSeek 的发布标志着一个重大转折点。
美国若要保持创新优势,不能仅依赖封闭模型的领先地位,而必须加速开源生态的发展,并推动训练方法的共享,同时加大对 AI 研发的投资。白宫最近宣布的 Stargate计划便是一个例子,该计划表示在未来四年内投入 5000 亿美元建设 AI 基础设施。
美国的竞争优势长期以来依赖于开放科学、以及产业、学术界和政府的协同合作。我们应该重新拥抱开放科学的可能性,让其再次成为推动美国 AI 发展的动力。
——-
(文:Z Potentials)