1093 TFLOPS 归档

DeepSeek开源第三弹：惊人的300行代码驱动R1和V3的训练与推理，超越各种专家内核

2025年2月26日12时作者 AI寒武纪

DeepSeek-AI 发布了 DeepGEMM 库，专为 Hopper GPU 架构的 FP8 矩阵乘法加速。其性能高达 1350+ TFLOPS，代码简洁至仅 300 行。该库支持稠密模型和混合专家模型，并通过多种技术实现高效优化，提供详细实测数据及安装指南。