多头潜在注意力机制归档

在 96 块 H100 GPU 上通过参数分解与大规模专家并行技术部署 DeepSeek

2025年5月9日8时作者 NLP工程化

通过参数分解与大规模专家并行技术部署DeepSeek，在96块H100GPU上实现接近官方吞吐量的开源实现。

2025年2月24日12时作者量子位

DeepSeek开源FlashMLA第一天，H800 GPU计算性能提升至3000GB/s、580TFLOPS。网友称赞工程团队实现每FLOP的突破。

2025年1月8日16时作者硅星人Pro

年度盘点第二弹：关于DeepSeek。
DeepSeek 不是“中国式创新” 的产物
中国杭州的人工