一键式训练端到端Agent,Qwen3+MCP工具集高效集成! 下午2时 2025/05/27 作者 GiantPandaCV 本文介绍了一种名为RLFactory的开源框架,旨在通过简单且高效的端到端训练方法解决现有深度学习框架在奖励设计和工具配置上的复杂问题。
【CUDA 博客】使用PTX指令更高效地加载和存储矩阵 下午2时 2025/05/26 作者 GiantPandaCV 表到本公众号。原始地址为:https://veitner.bearblog.dev/load-and
【CUDA博客】关于TensorCore和Inline PTX Assembly的一个超简短笔记 下午2时 2025/05/24 作者 GiantPandaCV 表到本公众号。原始地址为:https://veitner.bearblog.dev/a-short-
[Triton编程][基础] Triton极简入门: Triton Vector Add 下午2时 2025/05/24 作者 GiantPandaCV 778199261291694 编辑丨GiantPandaLLM 0x00 前言 后续会陆续更新一些
【CUDA 博客】TMA简介 & 让矩阵转置在Hopper GPUs上变得更快 下午7时 2025/05/23 作者 GiantPandaCV 表到本公众号。原始地址为:https://veitner.bearblog.dev/tma-intr
Sglang 源码学习笔记(三)- 分布式和并行(以deepseek 为例)(WIP) 下午2时 2025/05/21 作者 GiantPandaCV 082781461207006 编辑丨GiantPandaLLM 写在前面 基于上述的两篇文章,我们
sglang 源码学习笔记(二)- backend & forward 过程 下午2时 2025/05/19 作者 GiantPandaCV 5771025 编辑丨GiantPandaLLM 前言 书接上回,Bruce 仗剑走天涯:sglan
通过查看GPU Assembly分析CUDA程序 下午2时 2025/05/16 作者 GiantPandaCV 本文讨论了通过分析GPU Assembly来优化CUDA程序性能的方法,特别是向量化版本可以减少指令数量并提高效率。
单机H200最快DeepSeek V3和R1推理系统优化秘籍 下午7时 2025/05/15 作者 GiantPandaCV optim-algorithm-in-cuda/blob/master/large-language
SGLang 源码学习笔记:Cache、Req与Scheduler 下午7时 2025/05/14 作者 GiantPandaCV 41 前言 笔者一直想找个开源的推理引擎框架学习一下源代码,机缘巧合认识了 sglang 社区的朋友