计算瓶颈归档

在马斯克和奥特曼比谁喊的响的时候，DeepSeek低调发论文，梁文锋亲自参与

下午2时 2025/02/19 作者硬AI

DeepSeek发布原生稀疏注意力（NSA）机制，在大语言模型处理64k长文本的速度上最高提升11.6倍，并实现性能反超传统全注意力模型。NSA结合算法创新和硬件优化解决了计算瓶颈，有望显著提升未来基座模型的能力。