在马斯克和奥特曼比谁喊的响的时候,DeepSeek低调发论文,梁文锋亲自参与

DeepSeek发布原生稀疏注意力(NSA)机制,在大语言模型处理64k长文本的速度上最高提升11.6倍,并实现性能反超传统全注意力模型。NSA结合算法创新和硬件优化解决了计算瓶颈,有望显著提升未来基座模型的能力。