MHA 归档 - 每时AI

DeepSeek的MLA，任意大模型都能轻松迁移了

2025年3月6日23时作者机器之心

工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouS

【CUDA编程】手撸一个大模型推理框架 FasterLLaMA

2024年12月27日8时作者极市干货

写在前面
：之前笔者写过 4 篇关于 Nvidia 官方项目 Faster Transformer