注意力机制归档 - 第2页共4页

「注意力实际上是对数的」？七年前的Transformer还有新发现，Karpathy点赞

下午4时 2025/03/23 作者机器之心

今天，一篇博客再次掀起了AI社区对注意力机制的讨论。
作者认为，Transformers 中实现的注

新注意力让大模型上下文内存占用砍半！精度不减还能加速2倍

下午4时 2025/03/17 作者量子位

前苹果ASIC架构师Nils Graef与UC伯克利本科生Andrew Wasielewski提出Slim Attention，通过只存储K而不直接存储V实现更少的内存占用和更高精度。

何恺明LeCun暴击Transformer命门，9行代码砍掉归一化层！性能反而更强了？

下午11时 2025/03/14 作者新智元

恺明LeCun、清华姚班刘壮联手，用9行代码砍掉了Transformer「标配」归一化层，创造了性能

复旦NLP团队提出MHA2MLA框架，将任意大模型迁移至DeepSeek MLA

下午4时 2025/03/07 作者 PaperWeekly

1 作为 AI 产业颠覆式创新的代表轰动了业界，特别是其训练与推理成本仅为同等性能大模型的数十分之一

最近，DeepSeek团队发表的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起广泛关注。该文由DeepSeek创始人梁文锋亲自署名。NSA（Natively Sparse Attention）通过动态分层稀疏策略、粗粒度token压缩和细粒度token选择，显著提升了长文本处理速度，并在多个任务中超越了传统注意力模型。