刚刚,DeepSeek全新注意力机制NSA发布,超快速长文训练与推理~ 下午2时 2025/02/19 作者 PaperAgent DeepSeek官推发布NSA技术成果,一种面向硬件且支持原生训练的稀疏注意力机制,显著提升了长上下文训练与推理速度和成本。