最近,一篇 DeepSeek 团队发表的技术论文火出了圈。

截至我写文章时,DeepSeek 官方发的这个介绍帖阅读数已超过200万。
更更重要的是,这篇题为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》的论文,作者列表里赫然有着 DeepSeek 创始人梁文锋的亲自署名!

那么,由这位量化投资领军人物、国内 AGI 先锋、技术领袖亲自操刀的论文,究竟说了些什么?
当前的 AI,无论是聊天机器人、代码生成,还是创意写作,都属于“生成式 AI”,因为它们的核心功能都是“生成”。
AI 模型的生成能力,来自于对海量训练数据的学习和理解,然后通过神经网络架构来预测和生成与输入最相关的内容。在这一过程中,有一个至关重要的技术——注意力机制(Attention Mechanism)。
注意力机制这个概念最早源于《Attention is All You Need》这篇著名论文。就像人在阅读长文时,我们不会逐字逐句记住所有内容,而是自动聚焦在最关键信息上。AI 模型也是这样。在处理输入信息时,模型并不一视同仁地关注所有信息,而是通过注意力机制,动态决定哪些输入信息对当前任务最重要,从而优先关注这些关键信息。这样,模型不仅能更好地处理长文本,还能提高计算效率。
关于《Attention is All You Need》论文详细解读,可以看这里:常学常新:《Attention Is All You Need》万字解读!

然而,传统的 完整注意力机制(Full Attention) 有一个致命缺点——计算量太大。在处理长文本输入时,传统注意力机制需要计算每两个词之间的关系(即:全连接计算),这就导致计算量呈指数级增长。这种情况下,即使已经是只关注“重点信息”了,但整个计算过程会变得非常缓慢,计算成本非常高,模型的效率受到限制。
为了解决这个问题,DeepSeek 团队提出了一种新的优化方法——NSA(Natively Sparse Attention,原生稀疏注意力)。NSA 通过智能筛选和压缩关键信息,让模型在处理长文本时能够跳过冗余计算,既保持上下文理解能力,又大幅提高计算效率。
大白话,NSA 就像是让 AI 模型学会了进阶版的“快速阅读”。它使模型能迅速扫过文章,抓住关键点,跳过不重要的部分,而不是像初学者一样,逐字逐句地费劲阅读每一个字。
实验表明,NSA 在处理超长文本(如 64k tokens)时,速度提升了9 倍以上,同时在多个任务上超越了传统的完整注意力模型。

NSA(Natively Sparse Attention)有三大核心技术:动态分层稀疏策略、粗粒度 token 压缩、以及细粒度 token 选择。
1. 动态分层稀疏策略
动态分层稀疏策略,就是让 AI 学会“选择性跳过”。
你可以把它想象成一个人读书时,不是每一页都翻得那么细致,而是根据每一页的内容,来决定重点关注哪些部分。比如,当你阅读网文时,可能会对情节发展的部分更加关注,而忽略一些背景描述性的内容。
同样地,在 NSA 中,动态分层稀疏策略 帮助 AI 模型在处理文本时,只集中计算最重要的信息,其他部分则被忽略。这个“动态”就是指,模型在每次处理时,能够根据当前任务的需求来调整关注的内容,这样就避免了无谓的计算,提升了效率。
举个简单的例子,假设你在阅读一篇文章,文章分为几个部分——介绍、背景、结论。如果你正在寻找这篇文章的结论,你可能会跳过介绍和背景部分,直接关注结论部分。动态分层稀疏策略就相当于让 AI 模型也能“跳读”这些不重要的部分,直接集中精力处理最有用的内容。

2. 粗粒度 token 压缩
粗粒度 token 压缩,就是让 AI 学会“抓大放小”。
在传统的注意力机制中,模型需要对文本中的每一个词语都进行全面计算。这就好像是我们在阅读文章时,要记住文章中的每一个单词,虽然这些单词中有很多并不重要。粗粒度 token 压缩 就是让模型能“看”得更大一点,把相关的词汇“压缩”成一个大块的知识,从而减少计算量。
举个例子,假设我们要处理一段关于天气的文章:“今天的天气晴,温度适宜,适合外出游玩。”模型可能会把“今天的天气晴”这一部分压缩为“天气晴”——也就是忽略不那么重要的“今天”和“适合外出游玩”部分。通过这种压缩,模型能快速捕捉到关键信息,提高处理速度。
3. 细粒度 token 选择
细粒度 token 选择,就是让 AI 学会“挑选重点”。
当你在阅读一篇论文时,通常不会每个句子都详细阅读一遍,而是快速挑选出那些能直接帮助你理解论文核心观点的句子。这就是细粒度 token 选择的工作方式——它帮助 AI 模型决定哪些词是“核心”,哪些是“附加”信息,从而提高计算的准确性和效率。
比如在处理一篇关于“人工智能发展历程”的文章时,模型可能会重点关注“人工智能”这个词,而忽略“历程”的细节描述。通过选择性计算,模型不仅保留了关键信息的准确性,还节省了大量不必要的计算。
最后,总结一下,NSA 带来的好处。
-
更快:计算速度大幅提升,特别是在处理长文本时。 -
更省:减少了大量计算成本,让训练和推理变得更加高效。 -
更强:在多个基准测试(包括推理、阅读理解等任务)上,NSA 模型的表现比完整注意力模型更好。

我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)