手撕大模型Attention:MLA、MHA、MQA与GQA(含实现代码) 下午7时 2025/05/20 作者 Datawhale 多头注意力机制(Multi-Head Attention,MHA) 多头注意力(Multi-Hea
DeepSeek的MLA,任意大模型都能轻松迁移了 下午11时 2025/03/06 作者 机器之心 工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouS
【CUDA编程】手撸一个大模型推理框架 FasterLLaMA 上午8时 2024/12/27 作者 极市干货 写在前面 :之前笔者写过 4 篇关于 Nvidia 官方项目 Faster Transformer