在 96 块 H100 GPU 上通过参数分解与大规模专家并行技术部署 DeepSeek 上午8时 2025/05/09 作者 NLP工程化 通过参数分解与大规模专家并行技术部署DeepSeek,在96块H100GPU上实现接近官方吞吐量的开源实现。
“源神”DeepSeek!突破H800性能上限,FlashMLA重磅开源,算力成本还能降 下午12时 2025/02/24 作者 量子位 DeepSeek开源FlashMLA第一天,H800 GPU计算性能提升至3000GB/s、580TFLOPS。网友称赞工程团队实现每FLOP的突破。