1 月最后一天,来自 DeepSeek 的热度丝毫不减。
今天凌晨,吴恩达发文评论 DeepSeek,认为它的开源模型 DeepSeek-R1 不仅标志着中国在生成式 AI 领域正在赶超美国,更预示着 AI 行业格局正在发生深刻变革。
在不改变原意的情况下,Datawhale 进行了如下翻译和整理。
本周,中国 AI 公司 DeepSeek 的崛起引发了广泛关注,许多人从中看到了几个重要的行业趋势,这些趋势其实早已显现:
(一)中国在生成式 AI 领域正在赶超美国,这将对 AI 供应链产生深远影响。
(二)开放权重模型正在推动基础模型层商品化,为应用开发者带来新机遇。
(三)扩大规模并非通往AI进步的唯一途径。尽管算力备受追捧,但算法创新正在快速降低训练成本。
大约一周前,DeepSeek 发布了 DeepSeek-R1 模型,这款卓越模型的基准测试性能可与 OpenAI 的 o1 模型相媲美。更重要的是,它以宽松的 MIT 许可证开源发布。
在上周的达沃斯论坛上,许多非技术出身的商业领袖向我提出了关于 DeepSeek 的问题。而在周一,股市出现了“DeepSeek 抛售”现象:英伟达和许多其他美国科技公司的股价大幅下跌(截至撰稿时,部分股价已有所回升)。
我认为 DeepSeek 让许多人意识到以下几点:
当 ChatGPT 于 2022 年 11 月推出时,美国在生成式 AI 领域明显领先于中国。
人们的印象转变是缓慢的,因此即使在最近,我仍然听到美国和中国的朋友都认为中国落后。
凭借 Qwen(我的团队已经使用了数月)、Kimi、InternVL 和 DeepSeek 等来自中国的模型,中国显然一直在缩小差距,并且在视频生成等领域,中国似乎已经处于领先地位。
如今,DeepSeek-R1不仅开源了模型权重,而且还分享了一份包含诸多细节的技术报告。
相比之下,一些美国公司却通过渲染人类灭绝等假想的 AI 危险,推动制定法规来阻止开源的发展。
不可否认的是,开源/开放权重模型都是 AI 供应链的关键部分——很多公司都在用。
如果美国继续妨碍开源,AI供应链的这一环节就将由中国主导。
开放权重模型正在使基础模型层普及化
一直以来,LLM 的 Token 价格都在迅速下降,开放权重模型不仅加速了这一趋势,还为开发者提供了更多选择。
OpenAI 的 o1 模型每百万输出 token 的成本为 60 美元,而 DeepSeek R1 的成本仅为 2.19 美元。这种近30倍的差异让许多人注意到了价格下降的趋势。
训练基础模型并销售 API 服务来赚钱是十分艰难的,很多 AI 公司至今仍在寻找收回模型训练成本的途径。
红杉资本的文章《AI’s $600B Question》很好地阐述了这一挑战。
相比之下,在基础模型之上进行应用开发,则蕴藏着巨大的商业机遇。
现在,已经有公司投入了数十亿美元训练出了一些模型,你只需支付少量费用就能访问。然后,拿去开发客服聊天机器人、邮件摘要工具、AI医生、法律文档助手等诸多应用。
扩大规模并非 AI 进步的唯一途径
围绕通过扩大模型规模来推动进步的热议由来以久,我曾经也是早期的倡导者。
许多公司为了数十亿美元的融资制造噱头,从而筹集了数十亿美元:凭借更多资本,他们可以(i)扩大规模(ii)可预测地推动改进
因此,人们开始过分关注规模的 scaling,而忽视了其他方式取得的进步。
部分受到美国AI芯片禁令的影响,DeepSeek团队不得不在性能相对较低的 H800 GPU 而不是 H100 GPU 上跑模型,而这也推动了他们在优化方面的大量创新。最终,模型训练成本(不包括研究成本)不到600万美元。
这是否真能减少计算需求仍有待观察。有时,商品的单价变得更低,反而会导致该商品的总支出增加。
我认为从长远来看,对智能和算力的需求是几乎没有上限的,所以即使智能变得更便宜,人类依然会使用更多智能。
在 X 上,我们可以看到很多对 DeepSeek 进展的不同解读。就像「罗夏墨迹测试」一样,可以让许多人将自己的理解投射其中。
我认为虽然 DeepSeek-R1 的地缘政治影响仍有待明确,但它对 AI 应用的开发者来说确实是个好消息。
我的团队已经在头脑风暴一些新的想法,而这些想法之所以成为可能,仅仅是因为我们可以轻松访问一个开放的高级推理模型。
https://www.deeplearning.ai/the-batch/issue-286/
(文:Datawhale)