解码DeepSeek创新之道:三代模型演进路线图

DeepSeek R1是AI领域里程碑创新。
作者 |  乔楠
从整体上看,DeepSeek演进了三代模型:
DeepSeek-LLM(V1)完善了全栈框架,主要follow LLaMA;
DeepSeek V2完善了DeepSeek整个创新的模型架构,包括MLA和DeepSeekMoE,以及后训练RL采用的GRPO;
DeepSeek V3在V2模型架构的基础上,解决了如何通过全栈协同训练更大规模的MoE模型,模型能力达到头部大模型水平;
DeepSeek R1是AI领域里程碑创新,Aha Moment为下一代智能指出了一条路径。
文章来源:黄大年茶思屋科技网站

01.
DeepSeek-LLM (V1)


1. 高质量数据的构建:构建了一个包含约2万亿tokens的多语言数据集,主要涵盖中文和英文。通过数据去重、过滤和重混(remixing)三个阶段,确保数据多样性和高质量。
2. 模型架构借鉴LLaMA:模型在总体上借鉴了LLaMA的设计,但在细节上进行了调整。例如,7B模型采用30层网络,而67B模型采用95层网络,同时在部分模块(如注意力机制中采用了Grouped-Query Attention以降低推理成本)上有所不同。
3. 超参数设置:讨论了批次大小和学习率与模型规模之间的关系,并提出了基于大规模实验的多步学习率衰减策略。与传统的余弦调度器相比,这种策略不仅能保证性能,还方便模型的持续训练。
4. Scaling Laws研究:重新审视了模型规模和数据规模的扩展定律,提出了基于“非嵌入FLOPs/token”的新模型规模表示方法,并通过IsoFLOP分析得出最优的模型与数据扩展分配策略。发现不同数据集之间的质量差异会对扩展定律产生明显影响,高质量数据更有助于训练更大规模的模型。
5. 自研完善基础infrastructure:基于HAI-LLM的轻量级训练框架,集成了数据并行、张量并行、序列并行和流水线并行等多种技术,并利用Flash Attention和ZeRO-1技术进一步提升硬件利用率和训练效率。
6. 完善了pretraining和alignment(SFT+DPO)策略,证明SFT和DPO提升模型性能都是有效的。
7. 完善evaluation数据和框架,构建并强化了safety evaluation整体策略。
整体来讲,DeepSeek V1搭建了大模型的全栈技术框架,主要以解决开源工作为主,模型架构创新很少,infrastructure层自研创新很多,完善了大模型架构设计策略,超参数策略,alignment及evaluation。

02.
DeepSeekMath


1. 数学领域大规模预训练语料的构建策略:提出了一套迭代式数据采集流程,用于从Common Crawl中提取数学相关内容。利用OpenWebMath作为种子数据,首先使用fastText分类器进行初步筛选,再通过域划分和人工标注扩充种子数据,从而不断优化分类器,最终构建出包含约120B数学tokens的DeepSeekMath Corpus。与现有数学预训练语料(如MathPile、OpenWebMath、Proof-Pile-2)相比,该语料库规模更大、质量更高,并且具有多语言(主要是英语和中文)覆盖能力。
2. 预训练模型策略:基于选用DeepSeek-Coder-Base-v1.5 7B作为预训练起点,证明先进行代码预训练可以显著提升模型的数学推理能力。实验结果显示,在数学预训练后,即使模型参数量较小(7B),其数学问题解决能力已接近甚至超越某些大规模闭源模型(如Minerva 540B)。
3. 创新的强化学习算法GRPO(重要原创创新):Group Relative Policy Optimization (GRPO) 作为Proximal Policy Optimization (PPO) 的变体,取消了对critic模型的依赖,而是通过“组内评分”来估计基线,从而大幅降低了训练时的内存消耗和计算资源。该方法在数学指令调优阶段得到了显著提升,在同一数据条件下,通过GRPO进一步提高了模型在各类数学基准(如GSM8K、MATH以及其他外域数学任务)的表现。
4. 同时讨论了Rejection Sampling Fine-Tuning (RFT)、Direct Preference Optimization (DPO)和PPO等方法归纳为直接或简化的强化学习技术,系统探讨了在线与离线训练、结果与过程监督以及单回合与迭代强化学习等关键因素,这为后续V3和R1的训练奠定了很强的理论和数据基础。
总结,DeepSeekMath的探索为R1奠定了很强的理论和数据基础,关键原创创新有两点
1. 大规模高质量数学语料构建:通过精心设计的数据筛选流水线和多次迭代,构建出远超现有资源的120B tokens数学语料,为数学预训练奠定了坚实基础。
2. GRPO强化学习算法:提出了取消critic模型的GRPO,通过组内评分来优化训练,既提高了数学指令调优阶段的效率,又降低了内存和计算资源的消耗,从而在数学基准上取得了领先表现。

03.
DeepSeek V2


1. 高质量数据:DeepSeek V2继续做了大量工作以构建高质量的训练数据提升到8.1T tokens。
2. 提出了核心架构创新MLA和DeepSeekMoE
(1)Multi-head Latent Attention (MLA) 的发明核心是为了解决KV缓存瓶颈:MLA通过对Key与Value进行低秩联合压缩,将高维表示映射到一个较低维的潜在空间中,再在推理阶段通过上投影恢复所需维度。这样既能大幅减少存储KV缓存所需的内存,又能保留足够的信息用于准确的注意力计算。采用MLA后,模型在保持甚至超过传统MHA性能的同时,其KV缓存量显著降低,从而大幅提升了推理效率,允许更大批量和更长序列的处理。
(2)DeepSeekMoE架构的发明核心在探索MoE的极限:现有的MoE架构(如GShard)在专家划分上往往较为粗粒度,容易导致知识冗余;同时,在专家选择和负载均衡方面存在分布不均、通信开销过高等问题,这些问题都会增加训练成本和不稳定性。

    • 细粒度专家划分:DeepSeekMoE对专家进行更细致的分割,使每个专家在特定领域或任务上更专精,从而提高知识获取的准确性和效率。

    • 共享专家隔离:同时设计了一部分共享专家,用于捕捉通用知识,避免各个路由专家之间的重复计算(知识冗余),实现更合理的专家职责分配。

    • 专家并行与负载均衡机制:在训练时采用专家并行策略,并引入辅助损失(包括专家级、设备级和通信级平衡损失)以及token-dropping策略,确保每个专家的负载相对均衡,控制跨设备通信开销,从而降低训练成本并提升整体训练效率。

    3. 引入DeepSeekMath的GRPO策略后,通过RL训练DeepSeek V2 Chat策略,证明模型性能得到有效提升。
    总结,DeepSeek-V2通过在Transformer架构中引入MLA和DeepSeekMoE两项关键创新,有效解决了传统模型在大规模预训练和长序列推理过程中面临的内存和计算瓶颈问题,同时在保证高性能的前提下实现了更经济、更高效的训练与推理。这两个创新为后续V3和R1沿用

    04.
    DeepSeek V3创新点


    1. 数据:持续构建高质量的训练数据,提升到14.8T tokens。
    2. DeepSeek V3架构沿用V2的MLA和DeepSeekMoE,又提出了两个小的创新点用于提升模型性能:

      • auxiliary-loss-free strategy for load balancing:对于每个专家,在路由时为其加上一个偏置项(仅用于路由选择),在训练过程中根据当前专家是否过载进行动态调整(增加或减少偏置),这一策略保持专家负载均衡而不引入额外损失,从而不会对模型性能造成明显干扰,同时节点限制路由确保在专家并行时跨设备通信最小化,使得大规模MoE模型训练更稳定、高效。

      • Multi-Token Prediction (MTP) :引入了MTP模块和相应训练目标,既能提升模型预测精度,也可用于推理时的speculative decoding,从而加速生成过程。

      3. 提出一系列创新点,核心为了解决怎么在受限硬件上训练更大规模的MoE模型:

        • 首创FP8 Mixed Precision Training Framework:首次在极大规模模型上引入并验证了FP8混合精度训练框架。通过支持FP8运算和存储实现了训练加速和减少内存占用。

        • 训练框架优化:DualPipe算法实现流水线并行,减少流水线空泡实现了计算与通信重叠;开发了专门的跨节点All-to-All通信内核,以充分利用InfiniBand (IB) 和NVLink的带宽,从而确保各节点之间的数据交换高效且低延迟。

        4. 两阶段训练的上下文扩展策略:pre-traning后通过两阶段的训练策略将上下文扩展到128K。
        5. 后训练蒸馏DeepSeek-R1提升V3推理能力,经过DeepSeek-R1蒸馏的数据能显著提升模型在LiveCodeBench和MATH-500两个基准测试中的Pass@1指标,知识蒸馏虽然能够提升模型性能,但同时也会大幅增加平均响应长度。
        6. DeepSeek-V3可以作为生成式奖励模型:

          • DeepSeek-V3在RewardBench上的表现与最优版本的GPT-4o-0806和Claude-3.5-Sonnet-1022相当,甚至超过了其他版本的表现,这表明其判断能力非常出色。

          • DeepSeek-V3探讨了self-rewarding策略,通过模型自身的投票评估结果来生成奖励信号,实现自我优化。这种方法不仅提高了模型的对齐效果,还为未来在更广泛任务中的奖励机制设计提供了新的思路。


          05.
          R1创新点


          1. R1的目标是完全通过无标注的数据进行推理能力的训练,最终希望实现模型的自我进化。
          2. Reasoning领域里程碑R1-Zero:R1-Zero直接将强化学习应用于基础模型,使得模型能够使用思维链(CoT)来解决复杂问题,模型也展现了自我验证、反思和生成长思维链等能力。这是业界首个公开研究证明了无需使用SFT,仅仅通过RL就可以显著增强LLM的推理能力,是Reasoning领域的里程碑性工作。

            • 强化学习使用DeepSeekMath中提出的GRPO策略。

            • Reward Modeling:1) Accuracy Reward:usually rule based model,2)Format reward:强制模型生成CoT过程。Aha Moment of R1-Zero:在RL训练过程中会出现Aha moment,模型突然“恍然大悟”,并分配更多的思考时间重新考虑初始条件策略,这说明了通过提供正确的激励,模型可以自主发展出先进的解决问题的策略。“Aha Moment”是通过强化学习,解锁下一层LLM智能的可能路径。

            3. DeepSeek-R1:为了解决R1-Zero生成结果可读性差和语言混合的问题,通过在冷启动阶段加入推理数据做SFT的方法训练了R1,解决了R1-Zero的问题。

            06.
            V3和R1的相互促进


            1. R1是基于V3-Base模型开发的。
            2. V3在post training环节使用了R1产生的高质量推理数据,显著提升了V3模型的推理能力。
            3. V3在post training环节同样使用了和R1一样的RL策略,提升推理能力并对齐人类偏好。
            4. V3/R1的post training环节都使用了V3作为Reward model对非数学编程场景提供反馈。
            5. Distilling R1 for V3: Distilling R1可以提升V3的推理能力,但会影响到处理一般问题的能力,增加反应长度,考虑到模型准确性和计算效率,V3主要蒸馏了R1的数学和编程能力。这个方向未来可探索空间很大,基模型和推理模型之间的边界很淡,未来是否会融合,迈入下一层智能,值得期待

            07.
            DeepSeek未来发展方向


            1. 持续优化模型架构:继续研究和改进模型架构,进一步提升训练和推理效率。未来目标之一是实现对无限上下文长度的高效支持,同时突破Transformer现有的架构局限,推动模型表达能力的边界。
            2. 提升训练数据的数量和质量:持续迭代和扩充训练数据,不仅要增加数据量,还要探索引入更多样化的训练信号,从多个维度推动数据规模的提升,从而进一步提高模型性能和泛化能力。
            3. 增强深度思考能力:针对模型的深度推理和问题解决能力,将进一步研究如何扩展模型的推理长度和深度,以增强模型在复杂认知任务中的智能表现和问题求解能力。
            4. 开发多维度综合评测方法:探索更加全面、多维度的模型评估方法,避免仅针对固定基准进行优化,防止对模型能力产生误导性的评估。通过多角度考量模型在各类任务和实际应用中的表现,确保对模型能力有更为准确和客观的基础性评估。


            (文:智东西)

            欢迎分享

            发表评论