14G跑满血DeepSeek-R1，清华最新开源力作ktransformers

下午2时 2025/02/17 作者 PaperAgent

671B的DeepSeek-R1到底需要多少GPU可以本地跑起来？清华开源框架KTransformers给出最新答案，只需要14G（一台24G的4090），DRAM大概要382G，生成速度要13.69 tokens/s，R1推理的门槛被彻底打下来了。

为什么使用CPU/GPU混合推理？DeepSeek的MLA操作符计算密集度很高。虽然完全在CPU上运行是可行的，但将繁重的计算任务卸载到GPU上可以带来巨大的性能提升。
性能提升来自哪里？

专家卸载：与传统的基于层的或KVCache卸载（如llama.cpp中所见）不同，将专家计算卸载到CPU，而将MLA/KVCache卸载到GPU，这与DeepSeek的架构完美契合，实现了最佳效率。
英特尔AMX优化——AMX加速内核经过精心调优，运行速度比现有的llama.cpp实现快数倍。

为什么选择英特尔CPU？英特尔是目前唯一支持类似AMX指令的CPU厂商，与仅支持AVX的替代方案相比，它能提供显著更好的性能。

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

（文：PaperAgent）

发表评论取消回复