万亿参数模型Kimi-K2部署、微调需要多大配置及4个代表性的大模型训练框架

今天是2025年7月12日，星期六，北京，雨

继续温故而知新，看看四个具有代表性的大模型训练框架，做个记录，包括大模型推理、部署资源计算器。

另外，顺着这个计算器，看看最新万亿参数模型Kimi-K2如果要运行以及微调，那么需要多少资源，来看看几个来源的数据，顺便也说下Deepseek-R1。

重复重复再重复，会有更多的发现和体会。

一、几个具有代表性的大模型训练框架

来看看目前比较流行的4大主流LLM训练框架。包括unsloth, llamafactory等，也包括一个对应的资源估算。

1、Unsloth（42k）

Colab/Kaggle一键微调；Triton内核：2×提速、显存↓80%；支持文本/语音/扩散/BERT，4/8/16bit全量或LoRA/QLoRA，适用：12–24GBGPU、快速实验、无需配置DeepSpeed

地址：https://github.com/unslothai/unsloth

2、Axolotl（10k）

一个YAML跑完整pipeline（数据准备→训练→部署），支持全参、LoRA、QLoRA、RLHF、FlashAttn、XFormers、FSDP、DeepSpeed、Ray，适用：需要可复现、团队级生产；

地址：https://github.com/axolotl-ai-cloud/axolotl

3、LlamaFactory（54k）

零代码Web界面，向导式微调，一键部署OpenAI兼容API；内置FlashAttn-2、LongLoRA、GaLore、DoRA、W&B、MLflow看板，适用：偏好GUI、想快速上线；

地址：https://github.com/hiyouga/LLaMA-Factory

4、DeepSpeed（39k）

支持ZeRO、MoE、3D并行，支撑万亿级训练；ZeroQuant、XTC压缩，亚秒级推理内核，适用：企业或研究，>10B模型、高并发服务

地址：https://github.com/deepspeedai/DeepSpeed

继续关注落地，输入模型、量化方式、批大小、硬件配置，可以估算LLM显存，包括生成速度（token/s）、显存占用明细、系统吞吐，目内置75款开源模型（DeepSeek、Gemma、Llama 3/4、Qwen…），也包括最新的kimi-k2，可以从这个里面设定参数找到答案。

（文：老刘说NLP）