美团基于SGLang提供INT8无损满血版DeepSeek R1部署方案 下午7时 2025/03/06 作者 GiantPandaCV .co/meituan/DeepSeek-R1-Block-INT8/tree/main/infer
【CUDA编程】手撸一个大模型推理框架 FasterLLaMA 上午8时 2024/12/27 作者 极市干货 写在前面 :之前笔者写过 4 篇关于 Nvidia 官方项目 Faster Transformer
回顾PyTorch Eager Mode 量化 TensorRT 加速 下午8时 2024/12/15 下午11时 2024/11/21 作者 极市干货 本文介绍了如何使用TensorRT加速通过PyTorch Eager Mode量化接口生成的量化模型,包括量化步骤、修复ONNX模型图以及构建和验证TensorRT引擎等内容。