RTX 4090单卡跑满血版DeepSeek-R1？清华&趋境科技联合推出KTransformers方案！

在一周前的《手把手教你本地部署DeepSeek-R1：3步搞定，有手就行！》一文里，我详细介绍了如何在本地部署 DeepSeek-R1 模型。

本地部署的优势在于灵活和数据隐私，但对硬件的要求实在太高，个人想要部署参数量为671B（6710亿）的满血版 DeepSeek-R1 模型几乎是不现实的。

附上7个不同参数量的 DeepSeek-R1 各自所需的配置。

可以看到，现阶段最强的面向个人用户的消费级显卡 NVIDIA GeForce RTX 4090（不算刚刚发布的5090的话），只能跑得动参数量为32B的 DeepSeek-R1。实在有点不够看。

那么问题来了，能不能用最小的成本办最大的事？比如在 RTX 4090 上跑满血版 DeepSeek-R1？

还真可以。最近，清华大学MADSys团队联合 趋境科技（Approaching.AI） 给出了KTransformers这个全新的开源解决方案。不需要A100/H100多卡集群，单张RTX 4090也能跑满血版 DeepSeek-R1。

KTransformers 是什么

KTransformers是一个基于 Hugging Face Transformers 的高性能LLM推理优化框架，其核心技术是“注入（Injection）机制”。这一机制允许用户通过YAML配置文件，自动将PyTorch计算图中的标准算子替换为更高效的优化内核，如Llamafile、Marlin和即将开源的AMX，从而 降低显存占用、提升推理速度，即便在有限的本地环境下也能运行大规模LLM。

KTransformers的关键特点包括：

支持DeepSeek-R1、DeepSeek-V2/V3、Qwen2-57B、Mixtral 8x7B/22B等SOTA大模型
兼容OpenAI API，可作为VSCode Copilot、Tabby等AI助手的后端
支持自动量化（Q4_K_M）、MoE（专家模型）优化，极限压缩显存占用
Prefill+Decode双阶段优化，相比llama.cpp最高提升27.79×的推理速度
RESTful API & Web UI交互，支持本地部署和云端推理

根据该项目文档2月10日的更新，KTransformers团队成功在资源受限的本地环境（24GB VRAM，382GB DRAM）下运行了DeepSeek-R1/V3的Q4_K_M量化版本，并通过AMX优化和选择性专家激活策略，使推理速度相比llama.cpp，Prefill最高提升27.79倍，Decode提升3.03倍。

接下来附上详细的操作步骤。

KTransformers项目地址：https://github.com/kvcache-ai/ktransformers

本地部署满血版DeepSeek模型文档：https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

环境配置

硬件要求

GPU: NVIDIA RTX 4090（24GB VRAM）
CPU: Intel Xeon Gold 6454S或同级别CPU
内存: 推荐382GB DRAM

软件环境

	V0.3-Preview 版本	V0.2/V0.2.1 版本
操作系统	Ubuntu 20.04/22.04	Ubuntu 20.04/22.04
CUDA 版本	12.6	12.x（建议参考官方文档）
Python 版本	3.11（推荐）	3.10 及以上
PyTorch 版本	2.6	2.1 及以上
KTransformers	0.3.0rc0	最新稳定版

安装 KTransformers

1. 安装系统依赖

sudo apt update && sudo apt install -y build-essential git wget curl

2. 安装 Python 及 Pip

V0.3版本推荐Python 3.11。

sudo apt install -y python3.11 python3.11-pip python3.11-venv
python3.11 -m venv venv
source venv/bin/activate

V0.2/V0.2.1版本支持Python 3.10及以上。

sudo apt install -y python3 python3-pip python3-venv
python3 -m venv venv
source venv/bin/activate

3. 安装 CUDA 及 PyTorch

V0.3-Preview（CUDA 12.6 + PyTorch 2.6）

pip install torch==2.6.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

V0.2/V0.2.1（根据CUDA版本安装PyTorch）

# 如果使用 CUDA 12.x
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu12x

# 如果使用 CUDA 11.x（如 11.8）
pip install torch==2.1.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

4. 安装 KTransformers

最佳性能，V0.3-Preview推荐

wget https://github.com/kvcache-ai/ktransformers/releases/download/v0.3/ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl
pip install ./ktransformers-0.3.0rc0+cu126torch26fancy-cp311-cp311-linux_x86_64.whl

最新稳定版，V0.2/V0.2.1

pip install ktransformers

适合开发者，源码安装

git clone https://github.com/kvcache-ai/ktransformers.git
cd ktransformers
git submodule init
git submodule update
sh ./install.sh  # 或 make dev_install

5. 下载 DeepSeek-R1/V3

# 使用 --depth 1 参数，只克隆最新版本，减少下载量
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-R1
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V3

或者，也可以从Hugging Face直接下载GGUF量化版本。

# 以DeepSeek-V3的Q4_K_M量化版本为例
wget https://huggingface.co/deepseek-ai/DeepSeek-V3-GGUF/resolve/main/deepseek-v3-q4_k_m.gguf

运行 DeepSeek-R1/V3

1. 4090单GPU运行

python -m ktransformers.local_chat \
    --model_path <模型路径或 Hugging Face Hub ID> \
    --gguf_path <GGUF 文件路径或 Hugging Face Hub 文件名> \
    --prompt_file <提示文件路径（可选）> \
    --cpu_infer 33 \
    --max_new_tokens 1000

参数解析

--cpu_infer 33：使用33线程进行推理（可根据CPU调整）
--max_new_tokens 1000：最大生成Token数

2. 多GPU运行

python -m ktransformers.local_chat \
    --model_path <模型路径或 Hugging Face Hub ID> \
    --gguf_path <GGUF 文件路径或 Hugging Face Hub 文件名> \
    --prompt_file <提示文件路径（可选）> \
    --cpu_infer 65 \
    --multi_gpu true \
    --max_new_tokens 1000

适用于多张4090或A100服务器环境。

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

（文：AI信息Gap）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30