注意力机制归档 - 第3页共5页 - 每时AI

DeepSeek创始人梁文锋亲自署名的论文长啥样？

2025年2月22日14时作者 AI信息Gap

最近，DeepSeek团队发表的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起广泛关注。该文由DeepSeek创始人梁文锋亲自署名。NSA（Natively Sparse Attention）通过动态分层稀疏策略、粗粒度token压缩和细粒度token选择，显著提升了长文本处理速度，并在多个任务中超越了传统注意力模型。

Kimi新论文再次“撞车”DeepSeek，都谈到了长文注意力机制

2025年2月19日16时作者量子位

Kimi研究团队提出的MoBA注意力机制显著提升了处理1M和10M长文本的速度，相比传统方法快了6.5倍和16倍。MoBA通过将上下文划分为块，并采用参数无关的top-k门控机制选择最相关的块来高效处理长序列数据。

首个基于统计学的线性注意力机制ToST，高分拿下ICLR Spotlight

2025年2月17日12时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

AAAI 2025 大模型会组合关系推理吗？打开黑盒，窥探Transformer脑回路

2025年2月6日12时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

“看清”世界——从盲超分到真实超分

2025年1月21日23时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨
星晴@知乎（已授权）
来源丨https://zhuanlan.

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

2025年1月17日16时作者机器之心

研究提出多矩阵分解注意力（MFA）及其变体 MFA-Key-Reuse，大幅降低语言模型推理成本的同时实现性能提升。

谷歌推出Transformer架构的继任者Titans：训练代码也会公开

2025年1月16日23时作者 AI寒武纪

谷歌发布的新架构Titans引入了神经长期记忆模块，能够在测试时学习记忆，提高模型上下文长度的同时保持快速推理能力。

机器学习入门学习资源列表：awesomeMLSys

2025年1月10日8时作者 NLP工程化

GitHub 上的 awesomeMLSys 提供了机器学习入门的学习资源列表，涵盖多个方面的内容，帮助深入学习和理解机器学习。

从文字到视觉：EvalMuse-40K如何评价T2I模型的进化

2025年1月6日16时作者 PaperWeekly

©PaperWeekly 原创 · 作者 |
李重仪
单位 |
南开大学教授
研究方向 |
计算机视

Transformer编码器与解码器和神经网络之间的关系

2024年12月31日14时作者 AI探索时代

编码器是神经网络模型的一部分，用于将输入数据映射到更紧凑的特征空间。它们通常是任务驱动的模块，由多个神经网络组件组成。