Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o 下午4时 2025/05/27 作者 新智元 Meta发布KernelLLM,一个基于Llama 3.1微调的8B模型,能够在PyTorch代码基础上生成高效的Triton GPU内核,单次推理性能超越GPT-4o和DeepSeek V3。
[Triton编程][基础] Triton极简入门: Triton Vector Add 下午2时 2025/05/24 作者 GiantPandaCV 778199261291694 编辑丨GiantPandaLLM 0x00 前言 后续会陆续更新一些
单机H200最快DeepSeek V3和R1推理系统优化秘籍 下午7时 2025/05/15 作者 GiantPandaCV optim-algorithm-in-cuda/blob/master/large-language
一次推理解决复合问题:基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA 下午4时 2025/02/22 作者 机器之心 多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,
MoE之年的总结和MoE 推理优化的一些认识 下午7时 2025/02/04 作者 GiantPandaCV 0x0. 前言 祝大家新年快乐! 希望大家天天开心,学业有成,工作顺利。 我是在2025农历新年的大
Fused AllGather_MatMul Triton工程实现 下午10时 2025/01/24 作者 GiantPandaCV 0x0. 前言 yifuwang 在 https://github.com/yifuwang/sym
Triton Kernel 编译阶段 下午2时 2025/01/01 作者 GiantPandaCV 博客来源:https://pytorch.org/blog/triton-kernel-compil