AI 终极十问!DeepSeek 如何颠覆开发者认知? | DeepSeek 十日谈


如今的大模型和人类越来越像,初步掌握了“自我思考”的能力后,进而给出更为合理的解答。

这类模型便被称之为推理模型,当下热议的 DeepSeek R1 以及之前 OpenAI 发布的 o1 都是典型的代表。

以一个简单的数学问题为例,“如果一列火车以 60 英里每小时的速度行驶,行驶 3 小时后,它会走多远?”DeepSeek R1 和通用多模态大模型 GPT-4o 或都能给出正确答案

但 DeepSeek R1 的不同之处在于它能够拆解问题、进行多步推理,甚至在复杂情境下进行自我调整,这正是推理模型带来的全新体验,也是引发科技圈为之兴奋的一大亮点。

从技术角度来看,很多人都好奇 DeepSeek R1 为什么展现出“思考”与“推理”能力?

根据 DeepSeek 论文显示,其核心技术主要依赖于纯强化学习(Reinforcement Learning,RL)技术。值得一提的是,当 DeepSeek R1 大杀四方之际,不少技术人将目光对准的是它的前身——DeepSeek-R1-Zero,这款模型建立在 DeepSeek V3 基础模型之上,采用的方法与典型的 RL 流程明显不同(即在 RL 之前应用监督微调 SFT)。DeepSeek-R1-Zero 仅使用强化学习进行训练,跳过了用于指令调整的监督微调(SFT)阶段。

对于奖励,DeepSeek 也没有使用基于人类偏好的奖励模型,而是采用了两种奖励类型,一种是准确性奖励,通过 LeetCode 编译器来验证编码答案,并使用确定性系统评估数学响应;另一种是格式奖励,主要依赖于 LLM 判断者,确保响应遵循预期的格式,例如将推理步骤放入标签中。

DeepSeek 团队观察到,尽管没有经过明确的训练,这种方法足以让 LLM 发展出基本的推理技能。有了这一发现,DeepSeek 团队进一步在 DeepSeek-R1-Zero 模型的基础上,使用了额外的 SFT 阶段,并结合 RL 进行微调,使模型的推理能力进一步提升,最终演化出了引领 AI 风潮的 DeepSeek R1。

在此背景下,有人认为,DeepSeek 实现模型的自我进化这种方式,代表了一种全新的 AI 训练范式,有望推动 AI 变革。

然而,也有人持不同看法,认为 DeepSeek 的突破更多体现在工程实践,而非科学创新。据 CNBC 报道,谷歌 DeepMind 首席执行官 Demis Hassabis 评价称,DeepSeek 的模型“是一项令人印象深刻的工作”,并可能“是中国最好的作品”,但从技术角度来看,“尽管外界热议不断,但实际上并没有带来新的科学进步……它只是基于人工智能领域已有的技术。”

这也引发了技术圈对未来大模型训练的热烈讨论。DeepSeek 的推理能力是否真正颠覆了认知?DeepSeek R1 的惊艳亮相,R1-Zero 的探索实践,是否正在重塑 AI 训练模式?强化学习在推理能力上的瓶颈、计算成本挑战怎么破解?AI 技术以及开发者的职业又会发生怎样的转折

怀揣着对这些关键技术、迭代方向的疑问,CSDN《万有引力》栏目的“DeepSeek 暨 AI 进化论十日谈”的第八期,我们围绕“DeepSeek 对 AI 技术及开发者的刷新十问”主题特设十问,邀请来自上海人工智能实验室青年科学家崔淦渠中国石油大学(北京)副教授、人工智能学院计算机系系主任吕仲琪,在 CSDN &《新程序员》执行总编、《万有引力》主理人唐小引的主持下,于 2 月 12 日 20:00 相约线上,展开一场深度对话。


通过精彩的观点碰撞,共同剖析四大维度难题:

  • DeepSeek 技术创新颠覆认知了吗?

  • R1 爆火背后,神秘的 R1-Zero

  • 模型基建化 VS 模型产品化,未来发展路径如何?

  • AI 模型能力狂飙,如何重塑人类职业价值?

嘉宾介绍

唐小引,CSDN &《新程序员》执行总编、《万有引力》主理人

崔淦渠,上海人工智能实验室青年科学家

博士毕业于清华大学计算机系,导师为刘知远副教授。研究方向为大语言模型的对齐与强化学习技术。在 ICML、NeurIPS、ICLR、ACL、KDD 等国际人工智能顶级会议与期刊上发表论文十余篇,谷歌学术引用超 8000 次。

吕仲琪,中国石油大学(北京)副教授、人工智能学院计算机系系主任

北京大学软件与微电子学院特聘硕士生导师,深圳市海外高层次人才,深圳市科创委科技专家。研究领域覆盖推荐系统、数据挖掘、自然语言处理等方向。代表研究成果推荐系统“时间流动性”,被广泛应用于工业实践,曾在腾讯广告、微软必应、阿里巴巴天猫等企业推广。相关技术成果发表国际顶级会议学术论文十余篇,被引用一千余次,承担多个省级、国家级课题。

欢迎点击视频号预约直播,解答你对 DeepSeek 的疑惑!

(文:AI科技大本营)

欢迎分享

发表评论