Meta Platforms 的人工智能研究人员处于恐慌状态。
最近,一些公司的人工智能团队领导公开担心,由一家中国对冲基金制作的新对话式人工智能意味着 Meta 在人工智能竞赛中落后。包括人工智能基础设施总监 Mathew Oldham 在内的领导们告诉多位同事,他们担心 Meta 旗舰人工智能 Llama 的下一个版本表现不如中国的人工智能 DeepSeek。
要点
• 一家中国量化基金的 DeepSeek AI 吸引了 OpenAI 和 Meta
• 顶尖的美国人工智能研究人员认为 DeepSeek 是基于美国制造的人工智能。
• Meta 已成立战情室以剖析 DeepSeek,并可能将 Llama 改造成类似的形式
根据美国人工智能公司的六位研究人员的多次采访、研究公司发布的评估以及 DeepSeek 模型客户的轶事例子,这家中国基金在 12 月底震惊了人工智能行业,发布了一个版本的 DeepSeek,该版本在完成各种任务时与 Meta、OpenAI 和 Anthropic 的模型相匹配或表现更好。
本月,总部位于杭州的幻方司继续加注,发布了另一个版本的 DeepSeek,可能与 OpenAI 的 o1 推理模型相当,这引发了人们对一些美国人工智能公司是否运营效率低下或花费过多资本以获得较差结果的质疑。
应用程序开发者可以自由下载 DeepSeek 或通过基于云的应用程序编程接口购买访问权限。一些较小的应用程序开发者表示,他们已经转向使用 DeepSeek,因为它的成本远低于使用 OpenAI 或 Anthropic 模型。
消费者可以通过一个与 OpenAI 的 ChatGPT 竞争的聊天机器人移动应用程序使用 DeepSeek。最新公开数据显示,DeepSeek 已成功登上中国和美国苹果应用商店的免费应用榜单第一位。在美国市场,DeepSeek 已超越 ChatGPT,标志着中国AI产品在全球市场上实现了历史性突破。而在中国市场,DeepSeek 也超越了豆包。
OpenAI、Meta 和其他顶级开发者的研究人员正在仔细研究 DeepSeek 模型,以了解他们可以从中学到什么,包括它是如何比一些美国制造的模型运行得更便宜和高效的。
“DeepSeek 表明,可以用相对较少的计算资源获得非常强大的 AI 模型,”顶尖 OpenAI 研究员 Noam Brown 上周在 X 上说道。
与此同时,Meta 已经设立了几个战情室,或称为专门的研究小组,以剖析 DeepSeek 并利用这些见解来改进 Llama。Meta 暗示下一个版本的 Llama 将在本季度发布。
比 DeepSeek 结果的质量更令人惊讶的是幻方声称开发它的成本仅为美国竞争对手开发类似模型所花费金额的一小部分——这一说法遭到了多位研究人员的质疑。为了强调其模型的高效性,幻方还销售一种云托管版本,其价格比 OpenAI 的类似产品便宜 17 到 27 倍。
DeepSeek 的到来让 Meta 的研究人员感到特别恼火,因为它像 Llama 一样,免费供其他开发者使用,并且有公开可访问的设置来控制模型的行为——这一概念被称为开放权重。
‘惊人且令人印象深刻’
DeepSeek 的推理模型是“我见过的最惊人和令人印象深刻的突破之一——作为开源,它是对世界的深刻馈赠,”投资者 Marc Andreessen 周五在 X 上说道。在人工智能领域,开源一词与开放权重同义。
Meta 全力开发行业领先的开放权重模型 Llama,以为其社交媒体应用程序上的 AI 助手、使用其应用程序的企业客户服务聊天机器人以及为广告商提供的文本和图像创作工具提供支持。
在追求 Llama 的过程中,首席执行官马克·扎克伯格希望将 AI 模型商品化,以便使用这些模型的应用程序,包括 Meta 的应用,产生的收入超过 AI 模型本身的销售额。这可能会对 Meta 的 AI 竞争对手造成伤害,例如 OpenAI 和 Anthropic,它们的销售预计将产生数十亿美元的收入。
但 Llama 的表现一直难以跟上那些竞争对手的模型。DeepSeek 代表了一种新的威胁,可能会质疑 Meta 在 Llama 上过度支出的员工和计算资源。
周五,扎克伯格对 Llama 项目表现出了新的严肃态度。他表示,Meta 的资本支出将在今年增加 60%,达到 600 亿到 650 亿美元之间——这大约是分析师预计其将产生的收入的三分之一——因为公司正在建设专门的数据中心以开发和运行该技术。
Meta 的 AI 服务器可能会很有用,即使公司能够复制 DeepSeek 的方法,从而需要更少的计算能力来生成可以与 OpenAI 竞争的新模型。这是因为像 o1 和 DeepSeek 的推理模型这样的新型 AI 模型在获得更多处理能力以回答问题时表现更好,这种做法被称为测试时计算,OpenAI 使其广为人知。
“我毫不怀疑,如果有更多的计算能力,[DeepSeek]将会是一个更强大的模型,”OpenAI 的布朗说。
他评论的含义是,OpenAI 不需要改变方向;该公司上周表示,将与软银等合作,在未来四年内花费高达 5000 亿美元用于新的 AI 数据中心。OpenAI 从 ChatGPT 订阅中获得的收入约是其 AI 模型 API 销售的三倍。
战情室
美国领先公司的研究人员私下表示,他们对 DeepSeek 的结果印象深刻,即使幻方可能采取了一些常见的捷径来模仿已经发布的模型,包括在其他模型如 o1 或 Llama 产生的答案上训练自己的模型——这一过程被称为蒸馏。
目前,Meta 的领导者面临压力,需要了解幻方还做对了什么。
使用中国模型可能在政治上存在风险。特朗普政府对美国人工智能在与中国技术竞争中失去优势表示担忧,并可能寻求在美国限制其使用。
Meta 的生成 AI 团队和基础设施团队的经理和工程师们已经成立了四个战情室,以了解 DeepSeek 的工作原理。两个小组正在尝试理解 High-Flyer 是如何降低 DeepSeek 的训练和运行成本的。一位员工表示,Meta 希望将这些技术应用于 Llama,其中一些技术在High-Flyer 的技术论文中有详细说明。
一些开发者表示,尽管 Meta 的模型是免费的,但它们的运行成本往往比 OpenAI 的更高,部分原因是 OpenAI 可以通过将数百万个来自其模型客户的查询进行批处理来降低价格。使用 Llama 的小型开发者没有足够的查询来以这种方式降低成本。
据一位直接了解情况的员工透露,第三个小组正在试图弄清楚幻方可能使用了哪些数据来训练其模型。
第四个战情室正在考虑基于 DeepSeek 模型属性重构 Meta 模型的新技术,他们表示。Meta 正在考虑推出一个版本的 Llama,像 DeepSeek 一样,包含多个 AI 模型,每个模型都经过训练以处理不同的任务。这样,当客户要求 Llama 处理某个任务时,只有模型的某些部分需要参与处理。这可能会使整体模型更快,并且需要更少的计算能力来运行。
“我们定期评估我们开发过程中所有竞争模型,自[公司的]Gen AI [小组]成立以来一直如此,”Meta 发言人 Jon Carvill 在一份声明中表示。“Llama 在建立开源 AI 模型生态系统方面具有基础性作用,我们对即将发布的 Llama 4 能够进一步巩固这一领导地位感到非常兴奋。”
定价权
在看到 DeepSeek 在公开评估中的表现后,AI 驱动应用程序的开发者们纷纷赶来测试。
Together AI帮助开发者运行和调整开放权重模型,联合创始人兼首席执行官 Vipul Ved Prakash 表示,在过去两周里,该公司每天都在加倍其运行 DeepSeek 模型的能力,以满足客户需求。Prakash 表示,一些共同的客户已经从 Anthropic 的 Claude 3.5 Sonnet 转向 DeepSeek 模型进行人工智能驱动的编码。
Steve Hsu,企业人工智能代理开发公司 SuperFocus 的联合创始人,正在使用上个月发布的 DeepSeek 模型 DeepSeek-V3,并表示其性能与 OpenAI 之前的旗舰模型 GPT-4 相当或更好,而 GPT-4 目前为 SuperFocus 的大多数生成 AI 功能提供支持。
他说,他的初创公司可能在接下来的几周内切换到 DeepSeek。而且由于 DeepSeek 可以免费下载,SuperFocus 可以在自己的服务器上存储和运行它,这对那些担心 OpenAI 访问其企业数据的客户来说是一个重要考虑。他说,OpenAI 表示它会在删除之前保存 API 查询 30 天。
本文翻译自:The Information,https://www.theinformation.com/articles/meta-scrambles-after-chinese-ai-equals-its-own-upending-silicon-valley?rc=d4lanv
编译:ChatGPT
(文:Z Potentials)