跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

CUTLASS

【CUDA 博客】TMA简介 & 让矩阵转置在Hopper GPUs上变得更快

下午7时 2025/05/23 作者 GiantPandaCV

表到本公众号。原始地址为:https://veitner.bearblog.dev/tma-intr

分类 学术 标签 CUDF、 CUTLASS、 Hopper、 Swizzle、 矩阵转置、 高效实现 发表评论

一起聊聊Nvidia Hopper 新特性之TMA

下午2时 2025/04/18 作者 GiantPandaCV

utorial-hopper-tma/
之前解读过两期LMDeploy Turbomind里的源码,

分类 学术 标签 CUDA、 CUTLASS、 GEMM、 Hopper架构、 PTX、 TiledMemoryAccess 发表评论

Tensor-006 AI软硬件交互界面: 可组合的Kernel

下午7时 2025/04/12 作者 GiantPandaCV

on讲的挺好的
《A Generalized Micro-kernel Abstraction fo

分类 学术 标签 CuTe Layout Algebra、 CUTLASS、 TileCopy、 TiledMMA、 兼容性和可移植性、 灵活性与可组合性 发表评论

Tensor-003 TensorCore架构

下午7时 2025/04/12 作者 GiantPandaCV

l架构被虐成狗了. 而Volta这一代的架构规划是在2013年, 应该有可能是在2015年附近得到了

分类 学术 标签 CUTLASS、 Sm80、 TensorCore、 深度学习模型、 矩阵乘法、 高性能计算库 发表评论

Tensor-005 CUTLASS简介

下午7时 2025/04/12 作者 GiantPandaCV

re进行矩阵计算, 通常我们需要按照如下流程逐步分块从GMEM加载矩阵块到SMEM再到寄存器文件,然

分类 学术 标签 CUDA、 CUTLASS、 任务初始化、 执行时间、 矩阵乘法、 随机数据填充 发表评论

simplegemm:从零开始实现高性能矩阵乘法的CUDA项目

上午8时 2025/03/22 作者 NLP工程化

手写CUDA代码实现高性能矩阵乘法的simplegemm项目介绍及其优化过程

分类 开源 标签 bertmaher、 CUDA、 CUTLASS、 Pingpong GEMM、 simplegemm、 优化 发表评论

一文详解:DeepSeek 第三天开源的 DeepGEMM

下午2时 2025/02/26 作者 赛博禅心

pper 架构 GPU 优化的矩阵乘法库 — DeepGEMM
。这一库支持标准矩阵计算和混合专家模

分类 分享 标签 CUDA、 CUTLASS、 DeepSeek、 Hopper架构、 PyTorch、 非标准块大小 发表评论

DeepSeek开源周[1]:FlashMLA,Hopper GPU推理性能狂飙

下午2时 2025/02/26 作者 子非AI

DeepSeek AI 团队发布了 FlashMLA,针对 Hopper GPU 优化的 MLA 解码内核,支持 BF16 和分页 KV 缓存,实现高达 3000 GB/s 内存带宽和 580 TFLOPS 计算性能。

分类 分享 标签 BF16、 CUTLASS、 DeepSeek AI、 FlashMLA、 Hopper GPU、 分页 KV 缓存 发表评论

DeepSeek-V3 FP8量化浅析

下午7时 2025/02/06 作者 GiantPandaCV

水塔花桥·琉森 摄于2024.4.30
DeepSeek-V3 横空出世,训练和推理成本极低,一个重

分类 学术 标签 block、 CuTe、 CUTLASS、 EVT、 FP8、 量化 发表评论

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 78%主创跳槽!Llama 14名作者只剩3人,Meta最强开源模型团队大溃散引争议
  • 阿里云发布通义灵码 AI IDE,深度适配千问 3 大模型、新增编程智能体,可调用 3000+ MCP 服务
  • 新版DeepSeek R1你得这样用,太爽啦~
  • 工业级耐用之选!盈连砂带机:耐磨抗造,多材质打磨一“机”搞定
  • AI之父Hinton:想知道不是最聪明物种的感觉?去问鸡吧

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×