DeepSeek创始人梁文锋亲自署名的论文长啥样？

最近，一篇 DeepSeek 团队发表的技术论文火出了圈。

截至我写文章时，DeepSeek 官方发的这个介绍帖阅读数已超过200万。

更更重要的是，这篇题为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》的论文，作者列表里赫然有着 DeepSeek 创始人梁文锋的亲自署名！

那么，由这位量化投资领军人物、国内 AGI 先锋、技术领袖亲自操刀的论文，究竟说了些什么？

当前的 AI，无论是聊天机器人、代码生成，还是创意写作，都属于“生成式 AI”，因为它们的核心功能都是“生成”。

AI 模型的生成能力，来自于对海量训练数据的学习和理解，然后通过神经网络架构来预测和生成与输入最相关的内容。在这一过程中，有一个至关重要的技术——注意力机制（Attention Mechanism）。

注意力机制这个概念最早源于《Attention is All You Need》这篇著名论文。就像人在阅读长文时，我们不会逐字逐句记住所有内容，而是自动聚焦在最关键信息上。AI 模型也是这样。在处理输入信息时，模型并不一视同仁地关注所有信息，而是通过注意力机制，动态决定哪些输入信息对当前任务最重要，从而优先关注这些关键信息。这样，模型不仅能更好地处理长文本，还能提高计算效率。

关于《Attention is All You Need》论文详细解读，可以看这里：常学常新：《Attention Is All You Need》万字解读！

然而，传统的 完整注意力机制（Full Attention） 有一个致命缺点——计算量太大。在处理长文本输入时，传统注意力机制需要计算每两个词之间的关系（即：全连接计算），这就导致计算量呈指数级增长。这种情况下，即使已经是只关注“重点信息”了，但整个计算过程会变得非常缓慢，计算成本非常高，模型的效率受到限制。

为了解决这个问题，DeepSeek 团队提出了一种新的优化方法——NSA（Natively Sparse Attention，原生稀疏注意力）。NSA 通过智能筛选和压缩关键信息，让模型在处理长文本时能够跳过冗余计算，既保持上下文理解能力，又大幅提高计算效率。

大白话，NSA 就像是让 AI 模型学会了进阶版的“快速阅读”。它使模型能迅速扫过文章，抓住关键点，跳过不重要的部分，而不是像初学者一样，逐字逐句地费劲阅读每一个字。

实验表明，NSA 在处理超长文本（如 64k tokens）时，速度提升了9 倍以上，同时在多个任务上超越了传统的完整注意力模型。

NSA（Natively Sparse Attention）有三大核心技术：动态分层稀疏策略、粗粒度 token 压缩、以及细粒度 token 选择。

1. 动态分层稀疏策略

动态分层稀疏策略，就是让 AI 学会“选择性跳过”。

你可以把它想象成一个人读书时，不是每一页都翻得那么细致，而是根据每一页的内容，来决定重点关注哪些部分。比如，当你阅读网文时，可能会对情节发展的部分更加关注，而忽略一些背景描述性的内容。

同样地，在 NSA 中，动态分层稀疏策略 帮助 AI 模型在处理文本时，只集中计算最重要的信息，其他部分则被忽略。这个“动态”就是指，模型在每次处理时，能够根据当前任务的需求来调整关注的内容，这样就避免了无谓的计算，提升了效率。

举个简单的例子，假设你在阅读一篇文章，文章分为几个部分——介绍、背景、结论。如果你正在寻找这篇文章的结论，你可能会跳过介绍和背景部分，直接关注结论部分。动态分层稀疏策略就相当于让 AI 模型也能“跳读”这些不重要的部分，直接集中精力处理最有用的内容。

2. 粗粒度 token 压缩

粗粒度 token 压缩，就是让 AI 学会“抓大放小”。

在传统的注意力机制中，模型需要对文本中的每一个词语都进行全面计算。这就好像是我们在阅读文章时，要记住文章中的每一个单词，虽然这些单词中有很多并不重要。粗粒度 token 压缩 就是让模型能“看”得更大一点，把相关的词汇“压缩”成一个大块的知识，从而减少计算量。

举个例子，假设我们要处理一段关于天气的文章：“今天的天气晴，温度适宜，适合外出游玩。”模型可能会把“今天的天气晴”这一部分压缩为“天气晴”——也就是忽略不那么重要的“今天”和“适合外出游玩”部分。通过这种压缩，模型能快速捕捉到关键信息，提高处理速度。

3. 细粒度 token 选择

细粒度 token 选择，就是让 AI 学会“挑选重点”。

当你在阅读一篇论文时，通常不会每个句子都详细阅读一遍，而是快速挑选出那些能直接帮助你理解论文核心观点的句子。这就是细粒度 token 选择的工作方式——它帮助 AI 模型决定哪些词是“核心”，哪些是“附加”信息，从而提高计算的准确性和效率。

比如在处理一篇关于“人工智能发展历程”的文章时，模型可能会重点关注“人工智能”这个词，而忽略“历程”的细节描述。通过选择性计算，模型不仅保留了关键信息的准确性，还节省了大量不必要的计算。

最后，总结一下，NSA 带来的好处。

更快：计算速度大幅提升，特别是在处理长文本时。
更省：减少了大量计算成本，让训练和推理变得更加高效。
更强：在多个基准测试（包括推理、阅读理解等任务）上，NSA 模型的表现比完整注意力模型更好。

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

（文：AI信息Gap）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

1. 动态分层稀疏策略

2. 粗粒度 token 压缩

3. 细粒度 token 选择

发表评论 取消回复

发表评论取消回复