长文本任务归档

刚刚，DeepSeek放出重磅论文！梁文锋亲自参与！

下午7时 2025/02/18 作者 Datawhale

论文提出原生稀疏注意力（NSA）技术，有望大幅提升大语言模型处理长文本的能力和效率。NSA结合动态分层稀疏策略与硬件优化，显著提升计算速度并在训练中支持端到端训练。实验表明使用NSA预训练的模型在多个任务上性能超越Full Attention模型，并且在64k长度序列下实现显著加速。