直击 DeepSeek 技术真相,对我们究竟意味着什么?


两个月前,采用了知识蒸馏方法的 DeepSeek V3,仅用 557.6 万美金训练成本和 2000 张卡成功对标 OpenAI 几亿烧出来的大模型,一跃成为中国 AI 大模型的代表,迅速走进公众视野。

不久前,这家低调的创业公司再次蓄力发布了 DeepSeek R1 ,引发了国内外科技圈的广泛关注,甚至就连春节假期回家,笔者都能从家中从未接触过 AI 领域的长辈口中听到,「有个国产 AI 模型 DeepSeek 很火,可以比肩国外的产品了」。

据移动应用分析机构 SensorTower 的数据显示, DeepSeek 应用软件在 18 天内的下载量达到 1600 万次,截至 2025 年 2 月 4 日,DeepSeek 日活用户数超越了 2000 万,成为全球增速最快的 AI 应用。

现如今,DeepSeek 服务器流量仍在不断升高,无论是阿里云、腾讯云、昆仑芯、国家超算互联网平台、GitCode 等云平台,还是华为昇腾、摩尔线程、天数智芯等国产算力厂商,都迅速上线部署了 DeepSeek。

毋庸置疑,DeepSeek 正在成为一种现象级 AI 应用,从技术实现、成本、性能等多维度打破我们对传统大模型的认知与固有壁垒。


DeepSeek 之所以爆火,一方面是因为它不同于过往百模大战中层出不穷的多模态通用模型,DeepSeek R1 属于新一类的“深度推理”模型,其采用的“强化学习”技术,使得 AI 会花更多时间思考答案,注重“思维链”(chain-of-thought)和回答的正确性。因此,很直观可以看出,它的对标并不是 OpenAI GPT-4o 这类多模态模型,而是 OpenAI o1 推理模型。

另一方面,DeepSeek  R1 一上线便以开源面世,正如清华大学长聘副教授,面壁智能首席科学家刘知远所评价的,「之前推理模型 OpenAI o1 的出现,相当于引爆了一个原子弹,但没有告诉大家秘方。而我们需要从头开始,自己去寻找如何复现这种能力的方法。DeepSeek 可能是全球首个能够通过纯粹的强化学习技术复现  OpenAI o1 能力的团队,并且他们通过开源并发布相对详细的介绍,为行业做出了重要贡献。」

再者,DeepSeek R1 的 API 服务定价非常亲民,每百万输入 tokens 的费用仅为 1 元(缓存命中)/4元(缓存未命中),而每百万输出 tokens 为 16 元。相比之下,o1 模型上述三项服务的定价分别是 55 元、110 元、438 元。这样的定价策略彻底颠覆了“越贵越好”的传统认知,也让许多开发者和企业看到了更具竞争力的选择。

这场在性能、开放性和成本之间的较量,DeepSeek 无疑率先迈出了重要的一步。而对于技术领域的从业者而言,如何利用好 DeepSeek 这把“利刃”,当然必须要摸透其背后的技术真相。

真相究竟如何?

2 月 8 日中午 13:00,CSDN《万有引力》栏目将邀请来自硅谷资深 AI 技术专家吴双北京邮电大学人机交互与认知工程实验室主任刘伟《知识增强大模型》作者、前达观数据副总裁王文广相聚线上,在 CSDN&《新程序员》执行总编唐小引的主持下,围绕:

  • 喧嚣之下,还原 DeepSeek 的技术真相

  • DeepSeek 之火席卷全球,国内VS硅谷视角观察

  • 拆解 DeepSeek 最具亮点的技术优势

  • DeepSeek 的爆发,对大模型发展有哪些关键启示?

  • 对一线开发者有哪些影响,最需要关注的点是什么?

等技术从业者时下最为关心的议题,进行一场接地气、轻松且深度的对话,希望尽可能地帮助大家更好地了解大模型的技术创新发展趋势以及 DeepSeek 的核心技术真相。

欢迎对 DeepSeek、大模型、技术创新感兴趣的小伙伴提前扫码预约,共话新技术!

也可以点击下方视频号,一键预约哦~

(文:AI科技大本营)

欢迎分享

发表评论