大家蛇年心想事成!
吴恩达老师刚刚发表了对DeepSeek R1 评论,以下是全文,分享给大家,不做任何个人解读
本周,中国 AI 公司 DeepSeek 的崛起引发了广泛关注,许多人从中看到了几个重要的行业趋势,这些趋势其实早已显现:(一)中国在生成式 AI 领域正在赶超美国,这将对 AI 供应链产生深远影响。(二)开源权重模型正在将基础模型层商品化,为应用开发者创造了巨大的机遇。(三)规模化并非 AI 进步的唯一道路,尽管算力备受瞩目和炒作,但算法创新正在迅速降低训练成本。
大约一周前,总部位于中国的 DeepSeek 发布了 DeepSeek-R1 模型,这款卓越模型的基准测试性能可与 OpenAI 的 o1 模型相媲美。更重要的是,它以宽松的 MIT 许可证开源发布。在上周的达沃斯论坛上,许多非技术出身的商业领袖向我提出了关于 DeepSeek 的问题。而在周一,股市出现了“DeepSeek 抛售”现象:英伟达和许多其他美国科技公司的股价大幅下跌(截至撰稿时,部分股价已有所回升)。
我认为 DeepSeek 让许多人意识到以下几点:
中国在生成式 AI 领域正在赶超美国。 当 ChatGPT 在 2022 年 11 月发布时,美国在生成式 AI 领域明显领先于中国。人们的印象转变是缓慢的,因此即使在最近,我仍然听到美国和中国的朋友都认为中国落后。但实际上,过去两年里,这种差距正在迅速缩小。凭借 Qwen(我的团队已经使用了数月)、Kimi、InternVL 和 DeepSeek 等来自中国的模型,中国显然一直在缩小差距,并且在视频生成等领域,中国似乎已经处于领先地位。
我很高兴 DeepSeek-R1 以开源权重模型发布,并附带技术报告,分享了许多细节。与此形成鲜明对比的是,一些美国公司为了扼杀开源,大肆炒作诸如人类灭绝等假设性的 AI 危险,推动监管。现在,开源/开源权重模型显然是 AI 供应链的关键组成部分:许多公司都将使用它们。如果美国继续阻碍开源,中国将主导 AI 供应链的这一环节,许多企业最终将使用更多反映中国价值观而非美国价值观的模型。
开源权重模型正在将基础模型层商品化。 正如我之前写到的,LLM 的 token 价格一直在快速下降,开源权重模型加速了这一趋势,并为开发者提供了更多选择。OpenAI 的 o1 模型每百万输出 token 的成本为 60 美元,而 DeepSeek R1 的成本仅为 2.19 美元。近 30 倍的差异让更多人关注到了价格下降的趋势。
训练基础模型并销售 API 访问的业务是艰难的。该领域的许多公司仍在寻找一条收回巨额模型训练成本的道路。红杉资本的文章《AI 的 6000 亿美元问题》很好地阐述了这一挑战(但需要明确的是,我认为基础模型公司正在做伟大的工作,我希望他们能够成功)。相比之下,在基础模型之上构建应用则蕴藏着巨大的商业机遇。现在,其他人已经花费数十亿美元训练了这些模型,您只需花费少量资金就可以访问这些模型,以构建客户服务聊天机器人、邮件摘要器、AI 医生、法律文件助手等等。
规模化并非 AI 进步的唯一道路。 围绕模型规模化的炒作由来已久,似乎规模化是推动进步的唯一途径。公平地说,我曾经也是模型规模化的早期倡导者。许多公司通过围绕这样一个叙事制造热点,从而筹集了数十亿美元:凭借更多资本,他们可以(i)扩大规模,并且(ii)可预测地推动改进。因此,人们过度关注规模化,而忽视了更细致的观点,即我们可以通过多种不同的方式取得进步。部分受到美国 AI 芯片禁运的影响,DeepSeek 团队不得不进行许多优化,以便在性能较弱的 H800 GPU 而不是 H100 GPU 上运行,最终训练出了一个计算成本(不包括研究成本)低于 600 万美元的模型。
这是否真的会减少对算力的需求还有待观察。有时,降低商品单价反而会导致更多资金用于购买该商品。我认为长期来看,对智能和算力的需求实际上没有上限,所以我仍然看好人类会使用更多智能,即使它的成本变得更低。
在 X上,我看到了许多对 DeepSeek 进展的不同解读,仿佛这是一场罗夏墨迹测验,每个人都将自己的意义投射到其中。我认为 DeepSeek-R1 具有尚未完全显现的地缘政治影响。同时,这对 AI 应用开发者来说也是一件好事。我的团队已经开始集思广益,构思只有在我们能够轻松访问先进的开源推理模型后才成为可能的新想法。现在仍然是构建 AI 应用的绝佳时代!
原文:
https://www.deeplearning.ai/the-batch/issue-286/
⭐
(文:AI寒武纪)