日期: 2025 年 2 月 26 日
DeepSeek开源第三弹!极致榨干GPU,FP8训推秘籍公开
DeepGEMM是DeepSeek开源的一款支持FP8 GEMM的库,为V3/R1训练和推理提供动力,在Hopper GPU上性能高达1350+ FP8 TFLOPS。该库采用JIT即时编译技术,核心逻辑约为300行,仅支持英伟达Hopper Tensor Core架构,设计简单高效,且在某些形状上的表现优异。
DeepSeek开源第三弹:惊人的300行代码驱动R1和V3的训练与推理,超越各种专家内核
DeepSeek-AI 发布了 DeepGEMM 库,专为 Hopper GPU 架构的 FP8 矩阵乘法加速。其性能高达 1350+ TFLOPS,代码简洁至仅 300 行。该库支持稠密模型和混合专家模型,并通过多种技术实现高效优化,提供详细实测数据及安装指南。
GPU效率暴涨!DeepSeek开源DeepGEMM,仅300行代码
DeepSeek开源高效FP8精度矩阵乘法库DeepGEMM,支持NVIDIA Hopper架构,在密集和分组矩阵乘法下性能提升显著,使用方便,支持广泛应用场景。
DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世
DeepSeek 推出开源项目 DeepGEMM,是一款支持密集型和专家混合(MoE)的 FP8 GEMM 库,在 Hopper GPU 上可实现 1350+ FP8 TFLOPS 的计算性能。