喝点VC|a16z关于DeepSeek的内部复盘:推理模型革新与20倍算力挑战下的AI模型新格局

图片来源:a16z

Z Highlights

  • R1就像是他们过去几年中在其他模型上已经进行的所有这些技术的汇编。所以,这并不是一个单一的创新,而是过去几年中所有这些优秀工作的积累。

  • DeepSeek Math令人印象深刻。我认为他们首次通过让模型从自身学习来进行训练,这是一种新方法。它可以通过推理链来解决相当困难的问题。

  • 事实证明,蒸馏对于这些模型非常有效,而不是在这些模型中应用RL强化学习流程。

在这段访谈中a16z合伙人Guido AppenzellerMarco Mascorro一同揭开了DeepSeek的工作原理,并解释了推理模型时代对人工智能的意义。

开源透明,点燃推理革命

Guido Appenzeller: 大家好,今天我们将深入探讨DeepSeek,这个来自中国的全新高性能推理模型。DeepSeek在上个月引起了广泛关注,它在排行榜上名列前茅,但也引发了一些担忧和困惑。

Marco Mascorro: 是的,这不太理想。

Guido Appenzeller: DeepSeek的优点在于,他们开源了模型权重、技术细节以及构建这些模型的方法。这为我们理解推理模型的工作原理提供了宝贵的观点,而且展望未来,几乎所有最先进的模型都将采用其中的一些技术。我们已经从OpenAIGoogle的模型中看到了类似的结构,这对我们所需的计算量、推理和训练所需的GPU算力都有着重大影响。这是我们对DeepSeek的分析,包括他们一直在构建的一些模型,如DeepSeek Math, V3V2,以及现在的R1。如果你看一下幻灯片,它显示了当前最佳AI模型的排名,你会发现几乎整个榜单的顶部都被推理模型占据。

这非常令人印象深刻。曾经有一段时间,所有经典的LLM都以大致相同的方式构建,长期占据着榜首位置,但情况很快就发生了变化。这背后发生了什么?实际上,我们有了一种新型模型——推理模型。让我们通过一个例子来说明推理模型的输出有何不同。左边是GPT-4o mini,当被问到一个关于轨道力学的问题时,它直接给出了一个答案。右边是DeepSeek R1的蒸馏版本,这是一个非常小的模型,它无法直接从记忆中回答这个问题。但它开始推理,如果你仔细阅读文本,你会发现它真的开始思考、理论化、自我质疑,并希望最终能得出正确答案,而在这个例子中,它最终确实做到了。这些小模型能够取得如此高质量的结果,令人印象深刻。Macro,这是我们过去训练模型的方式,对吗?

Marco Mascorro: 是的,没错。这种方法非常高效且相对简单。你从互联网上收集大量文本数据,形成问题和答案对,然后以非常直接的方式训练模型。

Guido Appenzeller: 训练过程通常分为三个步骤:预训练(Pre-training):通常在非常大的计算基础设施上完成,需要大量的H100 GPU。目标是尽可能多地利用所有能找到的数据进行训练,通常这意味着使用整个互联网,因为互联网是目前人类拥有的最大知识库。 还有两个步骤。首先是有监督微调(Supervised Fine-tuning, SFT):使用人类生成的示例来教导模型如何表现。

Marco Mascorro: 例如,如果我只使用预训练模型并询问法国的首都是什么?,模型可能会继续提出更多问题,例如其他城市的首都是什么?

Guido Appenzeller: 完全正确。SFT的目的是让模型直接给出正确的答案。如果你不做有监督微调,这些基础模型会继续以自动补全模式运行,这通常不是你想要的。所以你需要添加SFT这一步,它是一种指令或问题和答案的格式,这就是你让模型能够与人类交互的方式。

Marco Mascorro: 如果有人问你一个问题,你应该给出答案,而不是回复更多的问题,这没有用。

Guido Appenzeller: 后一个是基于人类反馈的强化学习(Reinforcement Learning with Human Feedback, RLHF)。这有什么不同?

Marco Mascorro: RLHF部分是在SFT之后进行的。你有人类对问题和答案的痕迹进行评估,并给出一个分数,指示哪些答案是最好的。然后,基于这些偏好数据训练模型。实际上,仅通过SFT数据,例如在RedditStack Overflow等平台上训练,这些平台已经具有完美的格式,即人类投票选出最佳答案,就可以获得非常好的模型。

Guido Appenzeller: RLHF的作用是进一步打磨回复,使其不仅正确,而且是最佳的正确答案。

Marco Mascorro: 是的。

Guido Appenzeller: 预训练是完全自动化的,我只需要大量的数据,我进行下一个token预测。另外两个步骤需要人类的参与。SFT需要人类生成的示例,RLHF需要人类在循环中进行评估。

融合创新:自我推理与多阶段训练的累积效应

Guido Appenzeller: 推理模型有何不同?我们特别关注DeepSeek R1。这并不是因为他们是第一个,我们不确定他们是否是第一个,但他们目前可能是最开放的,发布了源代码和模型权重,所以我们对它了解最多。让我们逐步了解他们做了什么。如果你回顾一下时间线,他们首先做的是训练了一个数学模型——DeepSeek Math,这是一个非常非常好的数学模型,非常擅长特定任务的推理。它的创新之处是什么?

Marco Mascorro: DeepSeek团队,我们已经看到他们发布了多个模型,从23年底开始。在我看来,R1就像是将所有这些创新融合在一个模型中。从他们在V2中发布的多头潜注意力机制 (MLA),到他们在DeepSeek Math中引入的GRPO算法进行RL训练,R1就像是他们过去几年中在其他模型上已经进行的所有这些技术的汇编。所以,这并不是一个单一的创新,而是过去几年中所有这些优秀工作的积累。

Guido Appenzeller: DeepSeek Math令人印象深刻。我认为他们首次通过让模型从自身学习来进行训练,这是一种新方法。它可以进行推理链来解决相当困难的问题。对于数学或编程问题,我们可以在最后验证解决方案是否正确。如果我给你一个非常复杂的数学方程式,你逐步解决并给出结果,我可以将结果代入方程式,看看它是否正确。如果正确,模型就会从中学到东西;如果不正确,则不会。R1或者说这些推理模型的关键在于,以前总是有人的参与,比如SFT训练和其他技术。而R1首次表明,通过在模型之上进行强化学习,可以提高模型的质量。

Marco Mascorro: DeepSeek12月发布了V3,几周后发布了R1。在这之间,有一个名为R1 Zero的模型,它基本上是在V3基础模型之上直接应用强化学习,用于可验证的领域,如数学、谜题和代码。在这些领域,你可以拥有一个基于规则的验证器,它不是一个LLM,只是检查答案是否正确。你可以计算出答案,并知道它是正确的还是错误的。它给模型给出的响应打分,你对许多样本都这样做。R1 Zero是一个非常有趣的模型,因为它在一些推理和数学基准测试中表现出色,但在其他方面表现不佳。例如,它会在语言之间切换,或者有时会重复最后一个tokenR1的出现就是为了解决这些问题。

Guido Appenzeller: 我们谈论了DeepSeek Math,让我们谈谈DeepSeek V3DeepSeek V3是一个非常好的模型,它是一个经典的LLM,但可能也融入了一些来自DeepSeek R1前身的推理能力。如果你看看排名,它绝对是当时最好的模型之一。它采用了现代架构,具有良好的推理特性。

Marco Mascorro: DeepSeek团队长期以来一直在进行MoEMixture of Experts)研究。DeepSeek V3的优点在于专家的数量(256 个),这在开源模型中相对较高。与MixtralMistral AI推出的开源语言模型,个专家)相比,它要高得多。而且在推理过程中激活的专家比例也很高,这个比例很独特。训练 MoE 并不简单,它比训练一个密集的模型要复杂一些。我认为这是他们的一些创新或诀窍,能够训练一个大型的专家模型。

Guido Appenzeller: DeepSeek V3是他们后续所有工作的基础。让我们谈谈R1。这是一张流程图,展示了训练R1的不同步骤。首先,他们训练了一个名为DeepSeek R1 Zero的模型,它擅长推理,但存在其他问题。坦率地说,其余的步骤都是利用DeepSeek V3,并设法利用DeepSeek R1 Zero中更好的推理能力,同时使模型表现得更好,更易于人类使用。

Marco Mascorro: 是的,没错。

DeepSeek多阶段训练的蜕变之路

Guido Appenzeller: 让我们谈谈DeepSeek R1是如何训练的。这张图可能看起来有点吓人,但它概述了训练过程。

图片来源:a16z

Guido Appenzeller: 左边是DeepSeek V3,这是他们的经典训练的LLM。这不是一个推理模型,只有一点点推理能力。它更像是在推理模型出现之前的模型。然后,他们使用与之前训练数学模型相同的方法,训练了第一个DeepSeek R1 Zero。我们将详细介绍这是如何完成的。DeepSeek R1 Zero实际上是一个非常好的推理模型。

可以说,它的推理能力比最终的DeepSeek R1还要好。不幸的是,它不太好用,因为它会随机切换语言,可能会从中文开始,然后用英语说话,再切换回中文。它可能会在答案中产生乱码。所以,最终它会产生正确的答案,但这通常不是人类想要使用的东西。所以,我认为可以说,整个训练过程的其余部分都是试图让这个行为非常糟糕的模型变成一个人类喜欢使用的行为良好的模型。

Marco Mascorro: 是的,没错。为了修复R1 Zero,他们在后训练阶段增加了几个步骤,包括两个有监督微调阶段和两个强化学习阶段。每次他们都会从输出中获取结果,然后回到V3基础模型重新开始训练。最终的结果就是DeepSeek R1

Guido Appenzeller: 让我们更详细地了解一下。这是他们用于训练的prompt,明确指示模型逐步展示其推理过程。他们还有一个评估函数,确保模型确实这样做。如果模型没有展示推理过程或结果不正确,它就不会得到任何奖励。

Marco Mascorro: 是的,没错。

Guido Appenzeller: 随着训练的进行,答案变得越来越长。这不仅仅是一点点增长,而是从最初的不到1000tokens增长到最终的1万个tokens。这是一个惊人的推理量。

Marco Mascorro: 非常有趣的是,当你看这些推理模型时,会出现一些新的tokens,比如思考”tokens。这些tokens在模型进行推理步骤时出现,当推理结束时,会出现一个思考结束”token,然后是模型认为正确的最终答案。他们应用了这个流程,并观察到R1 Zero中一些有趣的事情。他们实际上在R1中使用了其中一些痕迹,来修复R1 Zero模型,使其更适合人类使用。

Guido Appenzeller: 这张幻灯片展示了他们所做的事情不仅使答案更长,而且实际上也有效。我们突然看到了一些回复,如果你看一下分数,它们可以解决比以前复杂得多的问题。这真的令人印象深刻。所以,基本上R1 Zero是模型性能的量子飞跃。

Marco Mascorro: 是的,没错。

Guido Appenzeller: 这是一个非常有趣的例子,这是一个“Aha Moment”。你以前见过这样的模型吗?

Marco Mascorro: 这是“Aha Moment”,当他们看到那些tokens时,推理过程就像是,嘿,我犯了一个错误,也许我应该纠正它。这是一种自我反思,在RL训练过程中非常重要。

Guido Appenzeller: 这有点像人类的学习方式,你尝试解决一个问题,然后从解决问题的过程中学习。

Marco Mascorro: 事实证明,我们现在可以对模型做类似的事情。

Guido Appenzeller: 最终的结果是,我们得到了DeepSeek R1 Zero,它擅长推理,但它会在句子中间切换语言(例如,从英语切换到中文),或者生成难以理解的奇怪答案。他们是如何从那里得到一个实际可用的、易于人类使用的模型的呢?

Marco Mascorro: 这是他们所做的美妙之处之一。他们想要修复R1 Zero,他们再次使用V3基础模型,但没有像R1 Zero那样直接进行RL,而是在中间加入了一个步骤。他们称之为冷启动数据cold start data)。这些冷启动数据是几千个来自R1 Zero的输出,但他们进行了选择,确保语言正确且答案正确。他们使用这些输出来以正常的SFT方式训练V3模型。这就是冷启动数据的过程,目的是使模型在某些方面保持一致,例如给出更长的、更具链式思维的答案。然后,他们在之后添加了RL。他们生成冷启动数据,用它来初始化模型,然后做了与之前相同的技巧,即训练一个模型来提供反馈,并使用该反馈来对模型生成的答案进行排名,从而改进输出。

Guido Appenzeller: 所以,我们再次使用来自R1 Zero模型的数据,但现在将其应用回原始模型,以获得一个表现更好的模型。事实证明,他们仍然不满意,于是再次使用该模型生成推理链,共60万个。

Marco Mascorro: 60万个,这很多。

Guido Appenzeller: 如果让具有研究生学位的人类来生成60万个复杂推理的痕迹,假设每个痕迹100美元,这将花费6000万美元。但现在,他们可以用计算机生成这些痕迹。

Marco Mascorro: 这太神奇了。60万个可验证的领域,如数学、谜题和代码。然后,他们选择了20万个更偏向于创造性思维、创造性写作和讲故事的痕迹,这些痕迹来自人类。其中一些来自V3,一些来自用于训练V3的数据集。他们选择了这20万个痕迹,然后再次进行SFT。所以,R1是一个多阶段训练,包括两个有监督微调阶段和两个强化学习阶段。第一个SFT阶段是冷启动数据。第二个阶段是在可验证领域(基于规则的数学等)进行RL。第三个阶段是对这80万个样本进行SFT60万个来自数学和代码,20万个来自创造性思维和其他更偏向于人类偏好的领域。最后阶段是再次进行强化学习,基本上是在所有领域。

Guido Appenzeller: 这很有道理。但有趣的是,他们说他们花了大约550万美元来训练DeepSeek V3。从DeepSeek V3R1的成本可能相对较低,因为大部分工作都是推理和小规模的SFT

Marco Mascorro: 是的,没错。从操作数量上看,它似乎比预训练要小两个数量级。DeepSeek团队表示,训练DeepSeek V3的成本约为550万美元,按市场价格计算。

Guido Appenzeller: 这个数字听起来是合理的吗?

Marco Mascorro: 听起来是合理的。我们已经看到了其他公司和实验室披露的模型,数字并没有那么疯狂。

Guido Appenzeller: 我们去年计算了一些LLaMA模型的成本,大约是300多万美元。所有这些数字可能只能反向推导,误差可能在两倍左右。这些不是精确的数字,但它们大致是合理的。有一个重要的警告,最终的测试运行通常只占总成本的一小部分,还有很多失败的测试运行和实验需要进行。那些进行训练的高薪博士需要基础设施来进行数据实验。所以,在你的总计算预算中,最终的运行可能只占很小一部分。

Marco Mascorro: 是的,没错。很多成本来自于实验。想出这种多阶段训练的组合,从V3SFT,然后是RL,再到SFT,然后又是RL,显然需要大量的实验。此外,还有很多失败的运行。我们只计算了最终的运行,但同时,有多少失败的运行?有多少失败的实验?所以,我认为这是很多成本的来源。飞机的成本不是最终的组装,而是所有的试飞。选择正确的痕迹,可能需要大量的数据集调整,以找出最佳的数据集和哪个数据集能显示出最佳结果。所以,有很多实验,显然我们看不到这些实验的成本,但这显然需要。

Guido Appenzeller: DeepSeek还进行了一些其他的创新,包括对注意力机制的改进。

Marco Mascorro: 他们使用了多头潜注意力机制 (MLA),这是对多头注意力机制的优化,其中KV向量位于潜空间中,从而在训练和推理过程中更高效。他们在 DeepSeek V2中提出了这一点。这有一些影响。如果你想扩展上下文长度(例如,从 8K 扩展到 32K 或 128K),通常会使用旋转位置嵌入(rope embeddings)。但是,MLA会丢失位置向量。因此,他们需要重新实现rope,并提出了耦合绳couple rope)。他们还在DeepSeek Math中实现了GRPO,这是对PPO的改进,是一种用于RL训练的更高效的采样算法。

Guido Appenzeller: 总的来说,DeepSeek团队将一系列最佳实践技术结合在一起,创造了一个非常出色的模型。很有趣的是,很多优化都集中在计算效率方面,例如如何使KVQ向量更高效,如何进行混合精度训练,他们在FP8中训练。

Marco Mascorro: 即使是GRPO,也是一种更高效的采样方式。

Guido Appenzeller: 这是AI的经典故事,计算效率非常重要。如果你在中国,它可能更重要。我们有了这一系列新的推理模型,这有什么意义?如果你去年第三季度问我,我会说,我们看到模型性能已经达到了顶峰。如果我看一下来自所有模型提供商的顶级LLM,我们会看到它们的测试分数被压缩到一个更窄的范围内。我们看到开源模型正在迎头赶上。现在,所有模型都密集地聚集在一起。而在18个月前,GPT-4几乎独自处于顶峰。这如何改变了局面?很多计算可能会用于测试时推理(test time inference)或测试时计算(test time compute)。由于我们现在生成了1万个单词的推理链,我们需要更多的推理,我们需要更多的我们的答案长度增加了20倍。所以,如果我们所有人都转向推理模型,我们需要的推理计算资源将增加20倍。

Marco Mascorro: 这太疯狂了。

Guido Appenzeller: 的,这太疯狂了。

Marco Mascorro: 这显然有影响,例如我们如何构建系统。通常我们一直在优化训练,但现在我们也增加了测试时计算,这非常重要。所以,很多工作都投入到了这个领域。

Guido Appenzeller: 这对训练方面意味着什么?我们过去在训练方面已经达到了极限,因为我们可以过度训练。但是,我们知道训练数据量和模型大小之间存在一定的比例关系。过去,训练数据都是人类生成的数据,地球上只有这么多。互联网是最大的知识库,所以我们看到每个人都在互联网上进行训练,这是每个人都在使用的相同数据集。生成式Transformer,所以每个人都得到了大致相同质量的模型。投入更多的计算并没有太大帮助,因为如果你找不到更多的数据,那么计算就没什么价值。但现在不同了。

Marco Mascorro: 数据的质量也很重要。预训练就像是,如果你不断增加数据和计算,你会得到巨大的改进,但我们确实在某个时候看到了一个平台期。我们需要找到一种不同的方法来进行推理,这就是RL和思维链(CoT)的用武之地。这是其中一个变化。另一个变化是,这些模型现在是开源的。我看到这个领域有很多创新,人们正在利用这个模型,这对AI行业来说是伟大的。所以,你有了一个推理模型,它在质量上与一些OpenAI模型相当,这在行业中也是一个很大的变化。

Guido Appenzeller: 这很有道理。黄仁勋认为,我们已经有了第一条模型性能曲线,现在开始趋于平缓,但现在我们有了新的曲线。总的来说,这意味着我们现在可以训练更好的模型。我们需要更多的GPU来进行训练,因为对于自我推理和自我改进,没有像以前那样明确的峰值。我们还不知道这会在哪里达到顶峰。我们需要更多的推理计算资源。总的来说,我们将拥有更好的模型。这真的很令人兴奋。这意味着AI可能会在一段时间内再次加速。

Marco Mascorro: 绝对的。纯粹的基础设施层面,以及在其之上的应用,将进一步加速它。所以,我认为这对AI来说是一个好兆头。另一个有趣的事情是,DeepSeek R1的论文中提到,对于这些模型,LLaMA 7B13B,是使用 RL更好,还是从更大的模型中进行蒸馏更好?事实证明,在他们的实验中,他们使用了LLaMA和其他一些Qwen模型,并直接应用了与R1相同的RL。结果表明,它在某些领域有所改进,但改进并不显著。他们看到显著改进的地方是从R1中进行蒸馏,即生成大量的问题和答案以及长的链式思维,然后进行训练。这更有效,在这些模型中显示出更大的改进。我认为这很有趣。事实证明,蒸馏对于这些模型非常有效,而不是在这些模型中应用RL强化学习流程。

Guido Appenzeller: 它们实际上在你的笔记本电脑上运行得很好。当然,我们指的是下载蒸馏模型。关于DeepSeek,有很多争议。但模型权重是开放的,所以你可以在你的笔记本电脑上下载它们,并使用一些开源软件包,如Ollama,运行它们。在MacBook上运行得很好,现在我们有了一个相当强大的推理模型,在你的笔记本电脑上本地运行。这真的很神奇。

Marco Mascorro: 这真的很神奇。你可以进行各种创新,例如量化模型,使其在非常小的设备上运行。

Guido Appenzeller: 完全正确。或者,你可以使用一个7B模型,但它是从R1中进行良好蒸馏的,这突然变得更好、更高效,可能更适合较小的设备。

Marco Mascorro: 所以,你有这些新的创新,非常令人兴奋。

Guido Appenzeller: 非常好。我希望这很有趣。我认为这是AI的一个重大进步,未来还会有更多令人兴奋的发展。谢谢大家。

原视频:DeepSeek, Reasoning Models, and the Future of LLMs

https://www.youtube.com/watch?v=Ae_Ieh93K64

编译:Richard

请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

——-

(文:Z Potentials)

欢迎分享

发表评论