9倍归档 - 每时AI

DeepSeek创始人梁文锋亲自署名的论文长啥样？

2025年2月22日14时作者 AI信息Gap

最近，DeepSeek团队发表的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起广泛关注。该文由DeepSeek创始人梁文锋亲自署名。NSA（Natively Sparse Attention）通过动态分层稀疏策略、粗粒度token压缩和细粒度token选择，显著提升了长文本处理速度，并在多个任务中超越了传统注意力模型。

DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本

2025年2月19日16时作者量子位

DeepSeek提出NSA稀疏注意力机制，显著降低大模型训练成本。实验表明，在64k上下文时，NSA前向传播速度最高提升9倍，反向传播速度提升6倍，解码速度提升11.6倍。论文已在arXiv上发布，梁文锋等DeepSeek原班人马参与。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31