结合代码聊聊FlashAttentionV3前向过程的原理 下午11时 2025/03/18 作者 极市干货 绍了FlashAttentionV3(FA3)的前向过程原理,结合代码分析了其数学公式和工程实现的细
使用NCU和Cursor Claude-sonnet-3.5写出高效cuda算子的正确姿势 下午10时 2025/01/21 作者 GiantPandaCV 我的课程笔记,欢迎关注:https://github.com/BBuf/how-to-optim-a