DeepSeek开源第三弹:惊人的300行代码驱动R1和V3的训练与推理,超越各种专家内核
DeepSeek-AI 发布了 DeepGEMM 库,专为 Hopper GPU 架构的 FP8 矩阵乘法加速。其性能高达 1350+ TFLOPS,代码简洁至仅 300 行。该库支持稠密模型和混合专家模型,并通过多种技术实现高效优化,提供详细实测数据及安装指南。
DeepSeek-AI 发布了 DeepGEMM 库,专为 Hopper GPU 架构的 FP8 矩阵乘法加速。其性能高达 1350+ TFLOPS,代码简洁至仅 300 行。该库支持稠密模型和混合专家模型,并通过多种技术实现高效优化,提供详细实测数据及安装指南。