11.6归档 - 每时AI

太震撼了！梁文锋携DeepSeek团队丢出注意力新机制重磅论文，网友：这才是真正的OpenAI

下午11时 2025/02/18 作者 AI寒武纪

DeepSeek发布原生稀疏注意力（NSA）技术，旨在提升大语言模型处理长文本的能力和效率。NSA通过动态分层稀疏策略结合粗粒度的Token压缩和细粒度的选择优化，实现了高效长文本建模，实验结果显示NSA在多个任务中超越了Full Attention模型，并显著提升了计算速度。