NSA 归档 - 每时AI

DeepSeek创始人梁文锋亲自署名的论文长啥样？

2025年2月22日14时作者 AI信息Gap

最近，DeepSeek团队发表的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起广泛关注。该文由DeepSeek创始人梁文锋亲自署名。NSA（Natively Sparse Attention）通过动态分层稀疏策略、粗粒度token压缩和细粒度token选择，显著提升了长文本处理速度，并在多个任务中超越了传统注意力模型。

DeepSeek革命性NSA注意力机制问世！梁文锋上阵，长文本推理能力飙升

2025年2月18日23时作者新智元

人亲自率队，提出了革命性注意力机制NSA，在通用、长文本、思维链推理基准测试中，刷新SOTA碾压全注

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31