注意力机制归档

MoE那么大，几段代码就能稳稳推理开源

2025年7月2日23时作者量子位

华为Omni-Infer项目开源，提供推理超大规模MoE的框架和加速套件。支持昇腾硬件平台的大模型推理，兼容主流开源框架，具有智能调度、负载平衡等功能。

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年6月24日23时作者机器之心

「长思维链」等技术的兴起，带来了需要模型生成数万个 token 的全新工作负载。
大多数语言模型都基

2025年6月19日8时作者机器之心

LLM
仅出现不到十年，就已将曾经遥不可及的人工智能能力普及给大众，让全球数亿人能够通过自然语言进

2025年6月19日8时作者机器之心

清华大学陈键飞团队提出SageAttention3，实现了5倍于FlashAttention的推理加速。此模型在多种视频和图像生成等大模型上保持了端到端的精度表现，并首次提出了可训练的8比特注意力用于大模型的训练加速。

2025年6月14日8时作者 NLP工程化

OpenAI联合创始人Ilya精选的AI论文清单包含30篇基础、优化和应用类论文，涵盖RNN/LSTM、CNN、Transformer等技术，内容涉及正则化、生成模型、对齐等多个领域。

2025年6月9日8时作者开源星探

微软开源GUI-Actor无坐标视觉定位工具，通过注意力机制直接识别目标区域，支持网页、桌面和移动端UI，性能媲美甚至超越传统方法。

2025年5月29日16时作者新智元

EfficientLLM项目聚焦LLM效率，提出三轴分类法和六大指标，实验包揽全架构、多模态、微调技术，为研究人员提供清晰的导航图。

2025年5月18日16时作者机器之心

最近，北大校友、前 OpenAI 应用 AI 研究负责人 Lilian Weng 更新了一篇长长长长