simplegemm:从零开始实现高性能矩阵乘法的CUDA项目

implegemm:从零开始实现高性能矩阵乘法的CUDA项目。亮点:

  1. 手写CUDA代码实现Pingpong GEMM算法,性能媲美CUTLASS;

  2. 详细解析优化过程,从基础到高级逐步优化。

参考文献:
[1] https://github.com/bertmaher/simplegemm


(文:NLP工程化)

欢迎分享

发表评论