【博客翻译】CUDA中的索引 下午2时 2025/04/25 作者 GiantPandaCV 在本文中,作者解释了CUDA中矩阵行优先格式的含义,并通过分析2D和3D数组的索引来阐明其在CUDA kernel中的应用。文章还详细介绍了如何将矩阵相乘操作分解为多个线程块进行处理。
Tensor-001 矩阵乘法分块乘法概述 下午7时 2025/04/12 作者 GiantPandaCV 别是Layout代数相关的内容, 后面再逐渐细化到一些硬件实现访存优化和一些算子融合相关的话题, 准