稀疏注意力机制归档

北大DeepSeek论文或预定ACL Best Paper！梁文锋署名

上午11时 2025/05/19 作者新智元

L 2025录用并获得了极高评分，甚至有望冲击最佳论文奖。该技术颠覆传统注意力机制，实现算力效率飞跃

下午4时 2025/03/05 作者机器之心

AIxiv专栏介绍及新模型MoM发布。MoM通过混合记忆机制实现大规模内存扩展，显著提升长序列建模能力，在in-context recall-intensive任务上超越Transformer。

下午4时 2025/03/04 作者甲子光年

下，第一个有关大模型的冷思考出现了。
2月9日，潞晨科技创始人尤洋在社交媒体发表了一条“暴论”：Ma

MLNLP社区举办学术Talk活动，邀请清华大学肖朝军博士生分享高效稀疏注意力机制研究，涵盖规则设计、缓存压缩等内容。赵阳洋主持，介绍研究背景与方法。

下午4时 2025/02/19 作者智东西

智东西2月19日报道，在DeepSeek公布最新稀疏注意力框架NSA论文的5小时后，“大模型六小虎”

下午4时 2025/01/27 作者量子位

阿里云Qwen模型首次将上下文扩展至1M长度，实现了长文本任务的稳定超越GPT-4o-mini，并提升了推理速度7倍。该模型分为长上下文训练、长度外推和稀疏注意力机制三大步骤。