CUDA 归档 - 每时AI

【CUDA编程】关于矩阵乘加操作的四个指令（ldmatrix、mma、stmatrix、movmatrix）详解

2025年7月11日16时作者极市干货

rix）详解
写在前面‌
：在 GPU Tensor Core 的编程实践中，笔者此前通过矩阵乘法优

【博客转载】使用CUDA driver API在运行时加载CUDA kernel (文末送书)

2025年7月8日14时作者 GiantPandaCV

time-Load-Run-Kernel/ ，来自Lei Mao，已获得作者转载授权。后续会转载一些

【博客转载】CUDA Cooperative Groups

2025年6月30日14时作者 GiantPandaCV

/ ，来自Lei Mao，已获得作者转载授权。后续会转载一些Lei Mao的CUDA相关Blog，也

【博客转载】CUDA Reduction

2025年6月29日14时作者 GiantPandaCV

，来自Lei Mao，已获得作者转载授权。后续会转载一些Lei Mao的CUDA相关Blog，也是

【博客转载】CUDA Matrix Multiplication Optimization

2025年6月27日19时作者 GiantPandaCV

Multiplication-Optimization/ ，来自Lei Mao，已获得作者转载授权。

【博客转载】CUDA Vectorized Memory Access （文末送书）

2025年6月26日14时作者 GiantPandaCV

-Memory-Access/ ，来自Lei Mao，已获得作者转载授权。后续会转载一些Lei Ma

nx-cugraph：为NetworkX提供零代码更改的GPU加速后端

2025年6月16日8时作者 NLP工程化

nx-cugraph为NetworkX提供GPU加速后端，支持7.0+架构，兼容Python3.10以上，涵盖多种图算法

【博客转载】CUDA Kernel Execution Overlap

2025年6月13日19时作者 GiantPandaCV

CUDA kernel执行重叠可以通过调整blocks_per_grid的值来实现。通过使用不同的blocks_per_grid值，可以观察到不同kernel执行之间的重叠效果。隐式同步可能导致默认流中的CUDA命令间的同步问题，并可通过启用per-thread default Stream来解决。

1万块GPU砸向欧洲！老黄怒怼AI末日论：全球首个工业AI云来了

2025年6月13日8时作者新智元

大航海时代已然启航，这不是一次产品发布会，而是未来的预言书。巴黎GTC大会，黄仁勋开讲了！这次他脱下

斯坦福华人天团意外爆冷！AI用纯CUDA-C编内核，竟干翻PyTorch？

2025年5月31日16时作者新智元

yTorch专家内核！斯坦福华人团队用纯CUDA-C写出的AI生成内核，瞬间惊艳圈内并登上Hacke

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31