DeepSeek的MLA,任意大模型都能轻松迁移了 下午11时 2025/03/06 作者 机器之心 工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouS
目前为止分析DeepSeek最全面的文章了 下午11时 2025/02/03 作者 NLP工程化 DeepSeek-V2 采用 DeepSeekMoE 架构优化训练成本和推理效率,引入稀疏激活的专家网络。