MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | RUC AI Box

作者｜高延子鹏‍‍

机构｜中国人民大学

研究方向｜大语言模型

本文旨在梳理大语言模型高效解码的相关研究进展，从模型压缩、KV 缓存优化、投机解码、推理引擎与调度策略、模型架构五个方面呈现近期相关工作，以期为未来研究提供参考。

01 模型压缩

1.1 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

http://arxiv.org/abs/2504.11651

本文提出了一种名为 Dynamic-Length Float (DFloat11) 的无损压缩框架，旨在高效部署大型语言模型（LLMs）。DFloat11 通过熵编码技术，根据权重频率分配动态长度编码，将模型大小减少 30%，同时保持与原始模型完全相同的输出结果。该框架针对 BFloat16 权重表示的低熵特性，开发了定制的 GPU 内核以实现快速在线解压缩，包括将查找表分解为紧凑版本以适应 GPU SRAM、采用两阶段内核协调线程读写位置以及在 Transformer 块级别进行解压缩以降低延迟。实验表明，DFloat11 在多种模型（如 Llama-3.1、Qwen-2.5 和 Gemma-3）上实现了约 30% 的模型大小缩减，并在固定 GPU 内存预算下，相比未压缩模型，显著提升了吞吐量和上下文长度，甚至能够在单节点上无损推理 810GB 的 Llama-3.1-405B 模型。

1.2 KurTail: Kurtosis-Based LLM Quantization

https://arxiv.org/abs/2503.01483

本文提出了一种名为 KurTail 的新型后训练量化（PTQ）方案，旨在解决大型语言模型（LLM）量化中的离群值问题，特别是在4位量化等极端情况下。KurTail 通过基于 Kurtosis 的旋转方法优化激活的尾部特性，有效缓解离群值的影响，支持对权重、激活和 KV 缓存进行4位量化。采用逐层优化策略确保内存效率。实验结果显示，KurTail 相较于 QuaRot 在 MMLU 准确率提升13.3%，Wiki 困惑度降低15.5%；相较于 SpinQuant，MMLU 提升2.6%，困惑度降低2.9%，同时降低训练成本。该方法在保持高效量化的同时显著提升模型性能，为 LLM 量化提供了新的解决方案。

1.3 Quantitative Evaluation of Multi-bitwidth Quantization for DeepSeek Language Models

https://arxiv.org/abs/2505.02390

本文对 DeepSeek 模型的量化性能进行了量化分析，重点关注 DeepSeek-R1 和 DeepSeek-V3 在多比特量化下的表现。研究发现，4 位量化（Q4K_M）在性能和内存占用之间取得了较好的平衡，能够在标准的 8-GPU 机器上实现单机部署，且性能与 FP8 相比几乎没有下降。此外，文章提出了一种动态 3 位量化方法（DQ3K_M），其性能优于传统的 3 位量化方法，并且在大多数任务中与 4 位量化相当。DQ3K_M 支持 NVIDIA H100/A100 和华为 910B 的单机部署，模型大小为 281GB，适合在资源受限的设备上运行。

1.4 Resource-Efficient Language Models: Quantization for Fast and Accessible Inference

https://arxiv.org/abs/2505.08620v1

本文综述了后训练量化（PTQ）技术在优化大型语言模型（LLM）推理效率方面的应用。文章详细介绍了量化方案、粒度选择及其权衡，并探讨了量化在减少模型资源消耗和提高硬件可访问性方面的潜力。研究指出，LLM的复杂性主要源于Transformer架构，尤其是其自注意力机制。文章回顾了多种PTQ方法，包括ZeroQuant、LLM.int8()、GPTQ、AWQ、SmoothQuant和HQQ等，并讨论了它们在不同硬件和任务上的适用性。最后，文章强调了未来研究方向，包括自动化校准、无数据的异常值处理和针对特定任务的量化评估。

1.5 Týr-the-Pruner: Unlocking Accurate 50% Structural Pruning for LLMs via Global Sparsity Distribution Optimization

https://arxiv.org/abs/2503.09657

本文提出了一种名为Týr-the-Pruner的全局结构化剪枝框架，旨在提升大型语言模型（LLM）的硬件无关推理效率，同时保持性能。传统局部剪枝方法因忽略全局拓扑而效果有限，全局剪枝虽具潜力但资源消耗大，且现有方法因均匀排序结构重要性而无法实现端到端优化。Týr-the-Pruner通过构建超网络，结合高效局部剪枝和期望误差累积方法，优化全局稀疏度分布，在50%稀疏度目标下实现准确剪枝。实验表明，该框架在性能与效率间取得平衡，显著优于现有方法，为LLM的轻量化部署提供了新思路。

1.6 Efficient Shapley Value-based Non-Uniform Pruning of Large Language Models

https://arxiv.org/abs/2505.01731v2

本文提出了一种基于 Shapley 值的非均匀剪枝方法（SV-NUP），用于优化大型语言模型（LLM）的剪枝过程。传统剪枝方法通常采用均匀稀疏策略，忽略了不同 Transformer 层对模型性能的不同贡献，导致剪枝效果欠佳。SV-NUP 通过量化每一层的贡献，为不同层分配定制化的剪枝预算，优先保留关键参数。为了提高效率，本文还设计了一种基于滑动窗口的 Shapley 值近似方法（SWSV），显著降低了计算开销。实验表明，SV-NUP 在多种 LLM 上均显著提升了剪枝模型的性能，特别是在 LLaMA-7B 和 LLaMA-13B 上，与 SparseGPT 相比，困惑度（PPL）分别降低了 18.01% 和 19.55%。

1.7 Semantic Retention and Extreme Compression in LLMs

https://arxiv.org/abs/2505.07289

本文探讨了大规模语言模型（LLM）的语义保留与极致压缩之间的平衡，研究了剪枝和量化联合压缩的潜力。作者提出了理论压缩率（TCr）和语义保留压缩率（SrCr）两个新指标，用于量化模型压缩与语义保留的权衡。通过实验发现，联合压缩（如25%剪枝与4位量化）相比单独量化在相同理论压缩率下平均性能提升20%。研究还分析了半结构化剪枝模式的潜力，为硬件高效部署提供了新方向。

1.8 From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs

https://arxiv.org/abs/2504.13471

本文提出了一种从大型语言模型（LLM）到超小型模型的端到端优化部署流程，旨在解决LLM在实际应用中的成本与性能困境。该流程包括三个阶段：原型设计、知识转移和模型压缩。首先，通过将复杂任务转化为基于LLM的函数调用流程，构建高性能原型系统；其次，利用拒绝微调、强化学习和知识蒸馏等技术将知识迁移到0.5B参数的学生模型中；最后，通过量化和剪枝将模型进一步压缩至0.4B参数，实现超低延迟和成本。实验结果表明，该方法在保持较高准确率的同时，显著降低了模型规模和推理成本，具有广泛的应用前景。

1.9 TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation

https://arxiv.org/abs/2503.04872v1

本文提出了一种名为 Branch-Merge 的蒸馏方法，用于在压缩大型语言模型（LLM）的同时提升其性能。该方法包含两个阶段：分支阶段（Branch Phase）和合并阶段（Merge Phase）。在分支阶段，通过领域特定的监督微调（SFT），将大型教师模型（如 DeepSeek-R1）的知识选择性地蒸馏到多个专业学生模型中；在合并阶段，这些学生模型被合并，以实现跨领域知识转移并提高泛化能力。实验结果表明，生成的 TinyR1-32B-Preview 模型在多个基准测试中显著优于其前身 DeepSeek-R1-Distill-Qwen-32B，特别是在数学（+5.5 分）、编程（+4.4 分）和科学（+2.9 分）领域，同时在 AIME 2024 上接近 DeepSeek-R1 的性能。该方法为创建更小、高性能的 LLM 提供了一种可扩展的解决方案，显著降低了计算成本和时间。

02 KV Cache 优化

2.1 WeightedKV: Attention Scores Weighted Key-Value Cache Merging for Large Language Models

https://arxiv.org/abs/2503.01330

本文提出了一种名为 WeightedKV 的新型无损压缩方法，用于优化大型语言模型（LLMs）的键值（KV）缓存。在自回归生成过程中，KV 缓存会随着序列长度增加而线性增长，导致内存占用过高。传统方法通过驱逐不重要的 KV 对来限制缓存大小，但可能会丢失关键信息。WeightedKV 通过保留重要 token 的键，并将不重要 token 的值通过凸组合加权平均注意力分数合并到相邻 token 中，既减少了内存占用，又保留了上下文完整性。实验表明，该方法在长文本生成任务中表现优于现有基线方法，显著降低了困惑度，尤其在较小缓存预算下效果显著。

2.2 KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference

https://arxiv.org/abs/2504.09936

本文提出了一种名为 KeepKV 的新型键值（KV）缓存压缩方法，用于高效推理大型语言模型（LLMs）。传统方法通过驱逐不重要的 KV 缓存条目或合并 KV 对来减少内存占用，但会导致信息丢失、输出扰动和生成质量下降。KeepKV 引入了“选举投票”机制，记录合并历史并动态调整注意力分数，并通过零推理扰动合并（ZIP-Merging）方法保持注意力一致性，补偿合并导致的注意力损失。实验表明，KeepKV 在多种任务和模型上显著降低了内存使用，提升了推理吞吐量，并在极低的缓存预算下保持了接近全缓存的生成质量。

2.3 Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference

https://arxiv.org/pdf/2503.23294

本文提出了一种名为 Cocktail 的新型块自适应混合精度量化方法，用于优化长文本上下文的大型语言模型（LLMs）推理中的键值（KV）缓存。Cocktail 包含两个模块：块级量化搜索和块级 KV 缓存计算。块级量化搜索基于查询与上下文块之间的相似性分数快速确定 KV 缓存块的最佳位宽配置，以保持模型精度；块级 KV 缓存计算通过重新排列 KV 缓存块以避免混合精度量化带来的硬件效率低下问题。实验表明，Cocktail 在多种模型和数据集上优于现有的 KV 缓存量化方法，显著降低了 GPU 内存使用和推理延迟，同时保持了较高的模型精度。

2.4 X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression

https://arxiv.org/abs/2503.11132

本文提出了一种名为 X-EcoMLA 的方法，用于将预训练的 Transformer 模型中的多头注意力（MHA）高效地转换为多头潜在注意力（MLA），从而实现高效的键值（KV）缓存压缩。X-EcoMLA 通过轻量级的后训练适应，利用奇异值分解（SVD）初始化和知识蒸馏技术，将预训练模型的知识迁移到 MLA 模型中，显著减少了 KV 缓存的内存占用，同时保持了模型性能。实验表明，使用 8B 教师模型时，X-EcoMLA 能够将 Llama3.2-1B 模型的 KV 缓存压缩 6.4 倍，同时在多个基准任务上保持 100% 的平均分数，仅需 3.6B 训练 token 和约 70 GPU 小时。

2.5 Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving

https://arxiv.org/abs/2503.24000

本文重新审视了大型语言模型（LLM）服务中的键值（KV）缓存压缩技术，从实际应用角度出发，对现有方法进行了全面调研和实验分析。研究发现，尽管KV缓存压缩可以减少内存消耗，但现有实现（如FlashAttention和PagedAttention）在生产级LLM服务中的吞吐量表现欠佳，且压缩可能导致输出长度增加，从而延长端到端延迟。此外，通过分析单个样本的准确性，揭示了KV缓存压缩在处理特定LLM任务时的内在局限性。基于这些发现，本文提供了工具，包括吞吐量分析工具、长度预测器和负样本基准数据集，以促进KV缓存压缩技术在生产环境中的实际部署。

2.6 Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization

https://arxiv.org/abs/2503.18599v2

本文提出了Oaken，一种针对大规模语言模型（LLM）推理服务的加速解决方案。Oaken通过算法与硬件的协同设计，实现了高效的键值（KV）缓存量化技术，有效缓解了LLM推理中内存带宽和容量的瓶颈。它采用线上线下混合量化方法，通过离线设置异常值阈值和在线动态量化，结合定制的量化/反量化引擎和内存管理单元，显著提高了推理吞吐量，同时仅引入极小的精度损失。实验表明，Oaken在256的批量大小下，相比NVIDIA A100 GPU可实现高达1.58倍的吞吐量提升。

2.7 SQuat: Subspace-orthogonal KV Cache Quantization

https://arxiv.org/abs/2503.24358

本文提出了一种名为 SQuat（Subspace-orthogonal KV Cache Quantization）的键值（KV）缓存量化方法，旨在优化大规模语言模型（LLM）推理过程中的内存使用和推理速度。SQuat 通过构建一个由查询张量（query tensors）张成的子空间来捕捉与任务相关的关键信息，并在量化键张量（key tensors）时，确保量化误差与该子空间正交，从而最小化量化对注意力机制输出的影响。该方法无需对模型进行微调，也不依赖额外的校准数据集。实验表明，SQuat 在多个 LLM 上显著降低了内存峰值用量（2.17× ∼ 2.82×），提高了吞吐量（2.45× ∼ 3.60×），并且在基准测试中表现优于现有的 KV 缓存量化算法。

2.8 LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference

https://arxiv.org/abs/2503.08879v1

本文提出了 Self-Attention Guided Eviction（SAGE-KV），一种针对长文本推理场景下的大规模语言模型（LLM）的高效键值（KV）缓存淘汰方法。SAGE-KV 通过分析注意力分数的稀疏性，发现 LLM 在预填充阶段后能够自然地聚焦于关键信息。基于此，该方法在预填充后仅通过一次 top-k 选择，即可在 token 和 head 层面上压缩 KV 缓存，从而在减少缓存的同时保留关键信息，实现高效的推理。实验表明，SAGE-KV 在 LongBench 基准测试和多个长文本 LLM 上，与全注意力机制相比保持了相当的精度，同时显著提高了内存效率，相比静态缓存选择方法 StreamLLM 和动态缓存选择方法 Quest，分别实现了约 4 倍和 2 倍的内存效率提升。

2.9 MILLION: Mastering Long-Context LLM Inference Via Outlier-Immunized KV Product Quantization

http://arxiv.org/abs/2504.03661

本文提出了 MILLION，一种针对长文本推理场景下的大规模语言模型（LLM）的量化框架，旨在通过优化键值（KV）缓存的量化来提高推理速度和内存管理效率。MILLION 首先对 KV 缓存分布进行深入分析，揭示了传统量化方案的局限性。接着，它引入了一种基于乘积量化的非均匀量化算法，能够高效压缩数据并保留精度。此外，MILLION 还开发了一个高性能的 GPU 推理框架，通过稀疏计算和异步量化显著提升了推理速度。实验结果表明，MILLION 在 4 位量化时几乎不损失困惑度和精度，并在 32K 上下文长度下实现了 2.09 倍的端到端性能提升。

03 投机解码

3.1 EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

https://arxiv.org/abs/2503.01840

本文提出EAGLE-3，一种通过训练时测试（Training-Time Test）技术加速大型语言模型推理的新方法。针对传统EAGLE因特征预测限制在数据规模扩展时性能提升有限的问题，EAGLE-3放弃特征预测，采用直接token预测，并通过多层特征融合替换单一顶层特征依赖，显著提升性能。实验涵盖聊天和推理模型，在五项任务中评估，结果显示EAGLE-3加速比高达6.5倍，较EAGLE-2提升约1.4倍，在SGLang框架下吞吐量提高1.38倍（批次大小64）。该方法充分利用数据规模扩展优势，为高效推理提供新路径。

3.2 SD²: Self-Distilled Sparse Drafters

https://arxiv.org/abs/2504.08838

本文介绍了一种名为Self-Distilled Sparse Drafters（SD2）的新方法，旨在通过自数据蒸馏和细粒度权重稀疏化技术，生成高效且与目标模型高度对齐的草稿模型，以加速大型语言模型（LLMs）的推理过程。SD2通过提高草稿标记接受率并显著减少乘累加操作（MACs），在通用辅助生成（UAG）场景下表现出色，即使草稿和目标模型来自不同模型家族，也能有效提升LLMs的推理效率，同时保持与目标模型的一致性。

3.3 SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting

https://arxiv.org/abs/2504.08850

本文提出了一种名为SpecEE的新型加速框架，用于提升大型语言模型（LLM）的推理效率。SpecEE通过利用推测模型减少早期退出预测器的搜索空间，有效降低硬件计算和内存访问需求。它在算法层面设计了基于推测的轻量级预测器，系统层面采用两级启发式预测器调度引擎，映射层面提出上下文感知的合并映射策略。实验表明，SpecEE在云和PC场景下分别实现了2.25倍和2.43倍的速度提升，同时保持了与原模型相当的准确性，显著推动了加速与准确性的帕累托前沿。

3.4 SpecOffload: Unlocking GPU Capacity for LLM Inference

https://arxiv.org/abs/2505.10259v1

本文提出了一种名为SpecOffload的新型推理引擎，旨在提升资源受限设备上大型语言模型（LLM）的推理效率。SpecOffload通过将推测性解码嵌入到模型卸载过程中，充分利用GPU的闲置时间和低效内存，显著提高了GPU核心利用率和推理吞吐量。该方法通过精心设计的交织批处理流水线、自适应张量放置策略和参数规划器，优化了计算和内存资源的分配。实验表明，SpecOffload在不同环境下对Mixtral等模型的推理吞吐量提升显著，平均达到2.54倍，有效解决了现有卸载框架中的GPU资源利用不足问题。

3.5 PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation

https://arxiv.org/abs/2504.18583

本文提出了 PARD（PARallel Draft），一种用于加速大型语言模型（LLM）推理的新型推测解码方法。PARD 通过将自回归（AR）草稿模型转换为并行草稿模型，能够在单次前向传播中预测多个未来标记，显著提高了推理效率。此外，PARD 引入了条件丢弃标记方法，将训练效率提升了 3 倍。实验表明，PARD 在优化后的推理框架上将 LLaMA3.1-8B 的推理速度提升了 4.08 倍，达到每秒 311.5 个标记。

3.6 Speculative Decoding for Multi-Sample Reasoning

https://arxiv.org/abs/2503.05330

本文提出了一种针对多样本推理场景（如自洽性和Best-of-N采样）的新型推测性解码方法。该方法通过动态分析并行推理路径中的结构模式，利用概率聚合机制识别与解码分布一致的共识标记序列，生成高质量的草稿标记，无需辅助模型或外部数据库。实验表明，该方法在数学推理基准测试中显著提高了草稿接受率，降低了草稿标记构建的延迟，为高效多样本推理提供了新的范式。

3.7 Automatic Task Detection and Heterogeneous LLM Speculative Decoding

https://arxiv.org/abs/2505.08600

本文提出了一种针对下游任务优化的推测性解码方法TaskSpec。该方法通过自动任务分区和分配，将下游任务划分为多个子任务，并将这些子任务分配给一组异构的草稿模型。每个草稿模型通过特定任务的数据与目标模型对齐，从而提高推理结果的一致性。此外，TaskSpec引入了一个轻量级在线提示分类器，动态地将提示路由到合适的草稿模型。实验表明，TaskSpec在提高草稿模型接受率的同时，显著提升了LLM推理的速度，最高可达2.64倍加速。

3.8 SPIN: Accelerating Large Language Model Inference with Heterogeneous Speculative Models

https://arxiv.org/abs/2503.15921

本文介绍了一种名为SPIN的高效大语言模型（LLM）推理服务系统，基于异构推测模型的推测解码技术。SPIN通过使用多个不同规模的推测模型（SSM），并结合学习算法动态选择最适合每个推理请求的SSM，显著提高了推测解码的性能。此外，SPIN提出了一种请求分解方法以减少批量处理中的冗余填充，并通过流水线化推测和验证阶段进一步加速推理过程。实验结果表明，SPIN相比现有方法在推理吞吐量上提升了约2.28倍，有效解决了现有技术在处理复杂请求时的性能瓶颈。

3.9 Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies

https://arxiv.org/abs/2502.05202v1

本文提出了一种加速大型语言模型（LLM）推理的新型无损推测解码（Speculative Decoding, SD）算法，专注于解决异构词汇表（即起草模型和目标模型词汇表不同）的问题。传统SD方法要求起草模型和目标模型共享相同词汇表，限制了可用起草模型的选择。本文提出的三种新方法（包括String-Level Exact Match, SLEM；Token-Level Intersection, TLI；String-Level Rejection Sampling, SLRS）均无需额外训练或修改即可直接应用于现成模型，并在总结、编程和长文本任务中显著提升了推理速度，相关实现已集成至Hugging Face Transformers库中。

3.10 PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding

https://arxiv.org/abs/2505.01572

本文介绍了一种名为PipeSpec的框架，用于加速大型语言模型（LLM）的解码过程。PipeSpec通过将多个不同规模的模型以层次化流水线的方式排列，打破了传统解码中阶段之间的严格依赖关系，实现了异步执行和轻量级协调。该框架通过乐观执行机制，假设下游模型会接受上游生成的候选标记，从而提高吞吐量。实验结果表明，PipeSpec在文本摘要和代码生成任务中，使用LLaMA 2和3模型时，能够实现高达2.54倍的速度提升，且随着流水线深度的增加，效率进一步提高。

3.11 Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time

http://arxiv.org/abs/2504.12329

本文提出了一种名为“Speculative Thinking”的训练无关框架，旨在通过大模型在推理阶段对小模型进行推理指导，从而提升小模型的推理能力。该方法与基于标记级别的推测解码不同，它基于两个观察：一是推理支持性标记（如“wait”）常出现在结构分隔符后，可作为反思或继续的信号；二是大模型在控制反思行为方面表现更强，能减少不必要的回溯并提升推理质量。通过将反思步骤委托给更强大的模型，该方法显著提高了小模型的推理准确率，并缩短了输出长度。例如，在32B模型的辅助下，1.5B模型在MATH500基准测试中的准确率从83.2%提高到89.4%，输出长度减少了15.7%。

3.12 SplitReason: Learning To Offload Reasoning

http://arxiv.org/abs/2504.16379

本文提出了一种名为SplitReason的模型，旨在通过将复杂的推理任务分解，将最具挑战性的部分卸载到更强大的模型，同时让较小的模型负责大部分生成任务。研究者通过对OpenR1-Math-220k数据集中的18k推理轨迹进行标注，并结合监督微调和强化学习微调，训练1.5B参数的推理模型识别并触发卸载。该方法在AIME24推理任务中显著提升了准确率，同时仅卸载少量生成标记，提高了推理效率。

04 推理引擎与调度策略

4.1 A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency

https://arxiv.org/abs/2505.01658

本文对大语言模型（LLM）的推理引擎进行了全面综述，分析了25种开源和商业推理引擎的优化方法和硬件适应策略。研究重点包括推理引擎的易用性、部署便捷性、通用性支持、可扩展性以及对吞吐量和延迟的优化能力。文章还探讨了未来发展方向，如多模态LLM支持、替代Transformer架构、更长上下文窗口、复杂逻辑推理优化、应用特定设计、安全性增强、设备端推理支持以及异构硬件加速等，为设计和运营下一代推理基础设施提供了实践基础。

4.2 Injecting Adrenaline into LLM Serving: Boosting Resource Utilization and Throughput via Attention Disaggregation

https://arxiv.org/abs/2503.20552

本文提出了一种名为Adrenaline的注意力计算分离与卸载机制，旨在解决大型语言模型（LLM）服务系统中预填充（prefill）和解码（decoding）阶段分离导致的GPU资源利用率低下的问题。Adrenaline通过将解码阶段的部分注意力计算卸载到预填充实例，提高了预填充实例的内存容量和带宽利用率，并增加了解码实例的计算利用率。该机制通过低延迟解码同步、资源高效的预填充共置和负载感知的卸载调度等关键技术，实现了高效的注意力卸载。实验结果表明，Adrenaline在真实工作负载下相比现有系统显著提高了资源利用率和推理吞吐量。

4.3 Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management

https://arxiv.org/abs/2505.03756

本文提出了FASTLIBRA，一种针对多LoRA（Low-Rank Adapter）大语言模型（LLM）推理的高效缓存管理系统。FASTLIBRA通过维护LoRA适配器和KV缓存之间的使用依赖关系，并在高带宽内存（HBM）中统一管理缓存，显著提高了多LoRA模型的推理性能。该系统包含一个依赖感知的缓存管理器和一个性能驱动的缓存交换器，能够动态调整LoRA和KV缓存的缓存策略，减少首次响应时间（TTFT）和每次输出时间（TPOT）。实验表明，FASTLIBRA相比现有系统平均降低了63.4%的TTFT和40.1%的TPOT，同时提高了35.2%的峰值吞吐量。

4.4 Optimizing LLM Inference Throughput via Memory-aware and SLA-constrained Dynamic Batching

https://arxiv.org/abs/2503.05248

本文提出了一种动态批处理方法，用于优化大语言模型（LLM）推理的吞吐量，同时考虑内存限制和服务级别协议（SLA）约束。传统静态批处理方法在处理动态工作负载时存在局限性，而本文的方法通过实时监控内存使用情况并根据SLA调整批处理大小，有效提高了计算效率和资源利用率。实验结果表明，该方法在不同LLM配置下可将吞吐量提高8%至28%，并在SLA约束下将系统容量提升22%。该方法与现有的推理基础设施完全兼容，为LLM部署提供了高效的优化方案。

4.5 Throughput-Optimal Scheduling Algorithms for LLM Inference and AI Agents

https://arxiv.org/abs/2504.07347

本文通过排队论的视角研究大语言模型（LLM）推理系统的吞吐量优化问题，填补了排队论与LLM系统研究之间的空白。文章提出了一类“工作保护型”（work-conserving）调度算法，证明其能够在满足服务级别协议（SLA）约束的条件下实现LLM推理系统的最大吞吐量。实验表明，Orca和Sarathi-Serve等系统采用的调度策略是吞吐量最优的，而FastTransformer和原始vLLM则存在不稳定性。此外，文章还扩展分析了AI代理工作负载场景下的调度策略，并揭示了在多代理LLM系统中实现最优吞吐量的挑战。研究结果为LLM推理系统的调度算法设计提供了理论基础和实践指导。

4.6 SeaLLM: Service-Aware and Latency-Optimized Resource Sharing for Large Language Model Inference

https://arxiv.org/abs/2504.15720

本文提出了 SeaLLM，一个针对大语言模型（LLM）推理的服务感知且低延迟优化的资源共享系统。SeaLLM 通过以下方式提升多 LLM 共享的整体性能：（1）利用 LLM 服务特性设计低延迟调度算法；（2）提出放置算法确定 LLM 服务的放置计划和自适应替换算法决定替换间隔；（3）采用统一的键值缓存高效共享 GPU 内存。实验表明，SeaLLM 在归一化延迟、尾延迟和 SLO 达成率上相比现有解决方案分别提升了高达 13.60 倍、18.69 倍和 3.64 倍。

05 模型架构

5.1 Faster MoE LLM Inference for Extremely Large Models

https://arxiv.org/abs/2505.03531

本文探讨了稀疏专家混合（MoE）大语言模型（LLM）在超大规模模型中的推理优化问题。针对细粒度MoE模型（如DeepSeek）逐渐兴起但研究较少的现状，文章分析了其在不同服务负载下的效率动态，重点研究减少激活专家数量对MoE效率与性能的权衡影响。研究表明，减少激活专家在特定场景下可显著提升效率，同时性能损失较小。文章提出了针对细粒度MoE架构的优化策略，为部署超大规模模型提供了重要见解。尽管MoE模型部署面临更大挑战，但其优化潜力巨大，为未来高效推理提供了新方向。

5.2 The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs

http://arxiv.org/abs/2504.17768

本文探讨了稀疏注意力机制在Transformer大语言模型（LLM）中的应用及其效率与准确性的权衡。研究通过在不同模型规模、序列长度和稀疏性水平下对多种长序列任务进行实验，发现对于非常长的序列，较大的稀疏模型比小的密集模型更具优势。在解码阶段，稀疏性水平可以在统计上保证准确性，而在预填充阶段则更难实现。此外，稀疏注意力并非万能解决方案，适度稀疏在某些任务中可能导致显著性能下降。文章还引入了针对稀疏注意力的新型扩展规律，证明了其在实验范围之外的适用性。

5.3 Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models

http://arxiv.org/abs/2504.03624

本文介绍了Nemotron-H，这是一个由NVIDIA开发的8B和56B/47B混合Mamba-Transformer模型家族，旨在降低推理成本的同时保持高精度。研究团队通过将Transformer架构中的大部分自注意力层替换为Mamba层，实现了推理时的常量计算和内存需求。Nemotron-H模型在推理速度上比同类开源Transformer模型快3倍，且精度相当或更高。此外，通过MiniPuzzle技术对56B模型进行压缩，生成的47B基础模型在保持精度的同时进一步提升了20%的推理速度。

5.4 M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

http://arxiv.org/abs/2504.10449

本文提出了一种基于Mamba架构的新型混合线性RNN推理模型M1，旨在解决大型语言模型（LLM）在长链推理中因Transformer架构的二次计算复杂度和线性内存需求所致的上下文长度扩展限制。M1通过从现有推理模型的蒸馏过程和强化学习（RL）训练进行优化，实现了内存高效的推理。实验结果显示，M1在AIME和MATH基准测试中不仅超越了之前的线性RNN模型，还在同等规模下与最先进的Deepseek R1蒸馏推理模型性能相当。通过吞吐量加速和自一致性投票，M1在固定生成时间预算下展现了更高的准确性，为扩展测试时生成（如长链推理或自一致性）提供了一种更有效的方法。

（文：机器学习算法与自然语言处理）

2025 年 5 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31