DeepGEMM
大模型处理PDF文档olmOCR,DeepSeek开源DeepGEMM高效的FP8矩阵乘法库,多模态推理R1-OneVision
本文介绍了五个AI工具包和模型,包括olmOCR用于处理PDF文档、DeepGEMM优化FP8矩阵乘法、R1-OneVision多模态大语言模型、Baichuan-Audio语音交互模型以及MyCoder AI编程工具。
DeepSeek开源周Day 3:DeepGEMM——300行代码性能飙升2.7倍,比英伟达更懂如何优化英伟达?
DeepSeek开源的DeepGEMM库在Hopper GPU上实现FP8 GEMM,最高可达1350+ FP8 TFLOPS。它仅约300行代码,设计简洁,性能表现与专家调优的复杂库相当甚至更好,在各种矩阵形状和模型类型上均保持优势。
DeepSeek开源第三弹!极致榨干GPU,FP8训推秘籍公开
DeepGEMM是DeepSeek开源的一款支持FP8 GEMM的库,为V3/R1训练和推理提供动力,在Hopper GPU上性能高达1350+ FP8 TFLOPS。该库采用JIT即时编译技术,核心逻辑约为300行,仅支持英伟达Hopper Tensor Core架构,设计简单高效,且在某些形状上的表现优异。