DeepSeek 简直可以称为华人之光,最近在 AI 领域风头一时无两,聊天的时候不说下 DeepSeek 咱都不好意思开口。它不仅在性能上超越了 OpenAI 的 ChatGPT,还在 App Store 下载排行榜中位居第一,这是连 Claude 都没有过的。DeepSeek 的成功,离不开其独特的训练方式和技术创新。下面我们一起看看 DeepSeek 的训练过程、工作原理以及优化与创新之处。
#01
预训练阶段
DeepSeek 在预训练阶段的目标是让模型学习语言的通用规律。这一阶段主要通过预测互联网上的海量文本数据中的下一个 Token 来实现。预训练阶段处理的数据量通常以数万亿级别的 Token 计,数据主要来源于网络抓取,如 Common Crawl 等公开数据集。通过这种方式,模型能够学习到语言的基本模式和结构。
预训练阶段的复杂性主要体现在训练过程的演进方式和不同损失函数的选择上。许多预训练技术都源于自然语言处理领域的文献。指令微调就是其中最古老,但至今仍被广泛采用的技术,也被称为监督微调,缩写为 IFT 或 SFT。
预训练阶段的核心是自回归预测,即预测文档序列中的下一个 Token。预训练可以扩展到非常大的规模,并且效率很高。预训练通常会使用单一的损失函数,并投入大量的计算资源。研究人员构建高效的系统,最终得到的就是基础模型。
后训练阶段
预训练阶段完成后,DeepSeek 会进行后训练,以使模型具备更符合人类期望的行为。后训练阶段包括两种主要的方法:指令调优和基于人类反馈的强化学习。
指令调优的核心思想是在模型中加入特定的格式,使其能够理解并响应指令。例如,当模型接收到“请解释罗马帝国的历史”这类问题时,它能够以信息量丰富且易于理解的方式给出答案。指令调优阶段的关键在于训练模型理解和遵循指令的格式。
基于人类反馈的强化学习是另一种后训练方法,它的核心在于使模型的回复不仅格式良好,而且更符合人类的阅读偏好。这一过程通过收集人类的成对偏好数据来实现,最初的数据标注工作由人工完成,现在也开始引入 AI 进行数据标注。偏好微调使用对比损失函数,让模型学习区分好答案和坏答案,并学习人类偏好的模式。
#02
DeepSeek-V3 是一个指令模型,类似于 ChatGPT。它通过接收到的指令生成相应的文本回复。当用户向 V3 提问时,它会快速生成 Token,这些 Token 会组合成易于理解的人类语言答案,通常会采用 Markdown 列表的形式,并带有格式,突出显示答案的核心要点。V3 可以生成数十甚至数百个 Token,Token 通常是一个词,对于常用词或长词的一部分,它可能只是一个子词。
DeepSeek-R1 是一个推理模型。当用户向 R1 提问时,它会首先进行大量的推理过程,然后再生成最终答案。R1 生成的 Token 中首先出现的是大量的思维链过程,模型在生成答案之前,会先解释问题,分解问题,所有这些推理过程都会以 Token 的形式快速生成。在完成推理过程后,R1 模型的语气会发生转变,开始给出最终答案,答案的形式与 V3 等模型类似。
#03
推理模型会把中间的思考路径拿出来呈现给大家看,这正是推理模型这类赛道未来的发展方向之一。DeepSeek-R1 是直接把推理模型通过强化学习加指令微调的混合方式训练出来,这种模型结构在设计上具有明显的优势,特别是在需要精确性和可解释性的领域,但在可扩展性、自适应能力和处理复杂场景方面存在一定的局限性。
DeepSeek-R1 和 R2 基于的是一个 13B 规模参数的模型,通过结合推理训练模块和 SFT(基于人类监督的有标注的数据微调)模块,实现了在推理任务和其他通用任务中的高性能表现。推理训练模块通过强化学习提升模型的推理能力,而 SFT 模块则通过监督微调优化模型的输出质量和语言一致性。这种结合使得模型在多种任务中都能表现出色,更具实用性。
人类常常难以通过直接的分析和评估来确定语言模型生成文本的质量。因此,许多研究者开始探索基于“策略”的评价,即通过观察语言模型在特定任务上的行为和表现来评估其性能。具体来说,他们可以构建一个游戏场景,在这个场景中,语言模型需要与虚拟环境进行互动,以解决特定问题或完成特定任务。通过观察模型在游戏中采取的策略、决策的质量以及最终任务完成的效果,研究者可以间接评估模型生成文本的能力。
DeepSeek R1 模型的运行效率高,它的平均响应时间在 2 秒左右,模型的 API 端口速率与 GPT 4.5 相当,是 GPT-4 的 4 倍。它的推理速度非常快,能够做到秒级响应,这在处理复杂的逻辑和数学问题方面,模型的表现依然精准。
(文:AI大模型实验室)