深度|外媒评DeepSeek以小博大,震惊硅谷,是中国的DeepMind

图片来源:Deepseek

一家小型中国人工智能实验室本周震惊了世界,公开了其尖端模型的技术配方,使其隐秘的领导者成为了一个国家英雄,抵制了美国试图阻止中国高科技雄心的努力。

DeepSeek,由对冲基金经理梁文峰创立,周一发布了其 R1 模型,并在一篇详细的论文中解释了如何在有限预算下构建一个大型语言模型,该模型可以在没有人工监督的情况下自动学习和自我改进。

包括 OpenAI 和 Google DeepMind 在内的美国公司在推理模型的发展方面处于领先地位,这是一项相对较新的人工智能研究领域,旨在使模型与人类的认知能力相匹配。去年 12 月,总部位于旧金山的 OpenAI 发布了其 o1 模型的完整版本,但其方法仍然保密。

DeepSeek 的 R1 发布在硅谷引发了一场激烈的辩论,关于资源更丰富的美国人工智能公司,包括 Meta 和 Anthropic,是否能够维护他们的技术优势。

与此同时,梁已成为国内民族自豪感的焦点。本周,他是唯一一位被选中参加与国家企业家公开会议的AI领导者。企业家们被告知要“集中精力攻克关键核心技术。”

在 2021 年,梁开始为他的人工智能副项目购买数千个 Nvidia GPU,同时经营他的量化交易基金幻方。业内人士将其视为一位亿万富翁寻找新爱好的特别行为。

“当我们第一次见到他时,他是一个非常书呆子的家伙,发型糟糕,谈论着建立一个 10,000 芯片的集群来训练自己的模型。我们并没有认真对待他,”梁的一位商业伙伴说。

“他无法清晰表达他的愿景,只能说:我想要建立这个,它将改变游戏规则。我们认为这只有像字节跳动和阿里巴巴这样的巨头才能做到,”那个人补充道。

梁在人工智能领域作为外部人士的身份成为了意想不到的力量来源。在幻方,他通过使用 AI 和算法识别可能影响股票价格的模式积累了财富。他的团队擅长使用 Nvidia 芯片进行股票交易获利。2023 年,他推出了 DeepSeek,宣布了开发人类水平 AI 的意图。

“梁建立了一个出色的基础设施团队,他们真正理解芯片是如何工作的,”一家竞争对手LLM公司的创始人说。“他把自己在对冲基金的最佳团队带到了 DeepSeek。”

在美对华芯片禁令后,当地的人工智能公司被迫寻找创新方法,以最大化有限数量的本土芯片的计算能力——这是梁的团队已经知道如何解决的问题。

“DeepSeek 的工程师知道如何释放这些 GPU 的潜力,即使它们不是最先进的,”一位接近公司的 AI 研究人员说。

行业内部人士表示,DeepSeek 专注于研究使其成为一个危险的竞争者,因为它愿意分享其突破,而不是为了商业利益而保护这些突破。DeepSeek 没有从外部资金筹集资金,也没有采取重大措施来实现其模型的商业化。

“DeepSeek 的运作方式类似于 DeepMind 的早期阶段,”一位在北京的 AI 投资者说。“它完全专注于研究和工程。”

梁先生亲自参与 DeepSeek 的研究,他利用对冲基金交易的收益为最优秀的人工智能人才支付高额薪水。与抖音母公司字节跳动一样,DeepSeek 因向中国的人工智能工程师提供最高薪酬而闻名,员工在杭州和北京的办公室工作。

“DeepSeek 的办公室感觉像是一个为严肃研究者准备的大学校园,”商业伙伴说。“团队相信梁的愿景:向世界展示中国人可以创造并从零开始构建一些东西。”

DeepSeek 和幻方没有回应评论请求。

梁将 DeepSeek 塑造成一家独特的“本土”公司,员工来自北京、清华和北航等顶尖中国高校的博士,而非美国机构的专家。

在去年与国内媒体的采访中,他表示他的核心团队“没有从海外回来的人员。他们都是本地人……我们必须自己培养顶尖人才”。DeepSeek 作为一家纯粹的中国LLM公司,赢得了国内的赞誉。

DeepSeek 声称它仅使用了 2,048 个 Nvidia H800 和 560 万美元来训练一个具有 6710 亿参数的模型,这只是 OpenAI 和 Google 训练同等规模模型所花费的费用的一小部分。

加州大学伯克利分校的人工智能政策研究员 Ritwik Gupta 表示,DeepSeek 最近发布的模型表明“在人工智能能力方面没有护城河”。

“第一个训练模型的人必须花费大量资源才能达到目标,”他说。“但第二个进入者可以以更低的成本和更快的速度到达。”

Gupta 补充说,中国拥有比美国更大的人才库,系统工程师懂得如何更好地利用计算资源,以更低的成本训练和运行模型。

行业内部人士表示,尽管 DeepSeek 在有限资源下取得了令人印象深刻的成果,但随着行业的发展,它是否能够继续保持竞争力仍然是一个悬而未决的问题。

在 2024 年,幻方及其大力支持者的回报滞后,一位接近梁的人将此归咎于创始人主要关注 DeepSeek。

美国的竞争对手并没有停下脚步。他们正在构建英伟达下一代 Blackwell 芯片的超级“集群”,创造出威胁到再次与中国竞争对手拉开性能差距的计算能力。

本周,OpenAI 表示正在与日本的软银创建合资企业,名为 Stargate,计划在美国投资至少 1000 亿美元用于人工智能基础设施。埃隆·马斯克的 xAI 正在大规模扩展其 Colossus 超级计算机,以容纳超过 100 万个 GPU,以帮助训练其 Grok AI 模型。

“DeepSeek 在中国拥有最大的先进计算集群之一,”梁的商业伙伴说。“他们目前的容量足够,但不会持续太久。”

本文翻译自:FT,https://www.ft.com/content/747a7b11-dcba-4aa5-8d25-403f56216d7e

编译:ChatGPT

——-

(文:Z Potentials)

欢迎分享

发表评论