当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎?

 机器之心发布 

机器之心编辑部

2025 年开年,DeepSeek R1 和 V3 重磅发布,其超强的语言建模与推理能力,引爆了全球 AI 社区。与此同时,一个隐藏在超大规模模型身后的技术命题浮出水面:如何让千亿参数超大规模 AI 模型真正达到商业级推理速度?这一问题的答案,隐藏在推理引擎 SGLang 的代码仓库中。该项目由 LMSYS Org 发起,并受到 xAI、NVIDIA、AMD 等巨头的青睐,正在通过多项关键技术突破,重新定义 LLM 推理的效率边界。


从 DeepSeek 模型发布当天便实现最佳适配,到长期稳居 SOTA 性能榜首,SGLang 的进化轨迹揭示了一个开源项目的硬核生存法则:用工程创新,攻克开发者最棘手的性能瓶颈。

通过领先的 Multi-head Latent Attention Optimzation、Data Parallelism Router、Eagle Speculative Decoding 等等技术方案,SGLang 长期保持开源模型顶尖的推理速度和吞吐量。

但是,SGLang 的征程绝不止步于此。当 Agent 的工程师们用其部署智能体时,当开发者在 NVIDIA Triton 内核中融入其优化策略时,当全世界的研究者高强度使用 DeepSeek 本地部署时,这个项目的真正价值正在显现:它不仅是长期领先的推理引擎,更是开源社区集体智慧的结晶。本文将从核心技术突破、系统级优化到开发者生态,解码 SGLang 独到的进化之路。

一、DeepSeek 模型持续优化,架构适配的工程实践

image credit: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

自从 DeepSeek V2 发布以来,SGLang 团队针对 DeepSeek 系列模型的 MLA(Multi-head Latent Attention)架构进行了深度优化。这些技术覆盖了数据并行注意力(Data Parallelism Attention)、多节点张量并行(Multi Node Tensor Parallelism)以及块级 FP8 量化(Block-wise FP8),从而在解码计算、显存管理和多节点协同等多个环节实现了突破性提升。

对于 Multi-head Latent Attention(MLA)的优化,团队通过使用权重吸收重新排列计算步骤,在保证模型表达能力的前提下,平衡了计算与内存访问负载,降低了解码过程中的冗余计算,降低了 MLA 在 Decode 过程中的计算量。在此基础上,针对 MLA 解码核仅保留一个 KV 头的设计,SGLang 团队开发了 Triton 解码核优化方案。该方案通过在同一计算块内同时处理多个 query 头,显著减少了对 KV Cache 的内存访问需求,从而加速了解码流程。此外,团队结合 W8A8 FP8、KV Cache FP8 量化技术,并开发了 FP8 批量矩阵乘法(BMM)算子,实现了 MLA 高效的 FP8 推理。值得一提的是,MLA 与 Mixture-of-Experts(MoE)模块均已兼容 CUDA Graph 和 Torch.compile,能够进一步降低小批量推理时的延迟。经过这些综合优化,DeepSeek 系列模型在输出吞吐率方面较上一版本实现了最高达 7 倍的加速效果。

面对高并发和大批量数据的实际应用需求,团队进一步在 MLA 注意力机制中引入了数据并行注意力技术。该方案通过将不同类型的 batch(包括 prefill、decode、extend 以及 idle 状态)分别分配给各个数据并行工作单元,使得各单元能够独立处理各自任务。待任务完成后,在 Mixture-of-Experts(MoE)层前后再进行必要的同步操作,从而显著降低了 KV Cache 的重复存储负担,优化了内存使用,并支持更大批量请求的高效处理。该优化专为高 QPS(Queries Per Second)场景设计,用户在使用 DeepSeek 系列模型时可通过命令参数 –enable-dp-attention 一键启用这一功能。

在单节点内存受限的情况下,SGLang 团队还推出了多节点张量并行技术。该方案允许将超大规模模型(如 DeepSeek V3)跨多个 GPU 或节点进行参数分区部署,有效突破单节点内存瓶颈。用户可以根据实际资源情况,在集群环境中灵活配置多节点张量并行,确保模型在高负载场景下依然能保持高效推理和资源利用率。

为了在推理过程中进一步平衡数值精度与计算效率,团队还开发了块级 FP8 量化方案。在激活值量化方面,采用 E4M3 格式,并通过对每个 token 内 128 通道子向量进行在线 casting,实现动态缩放,从而确保量化后激活值的数值稳定性;而在权重量化上,则以 128×128 块为基本单元进行处理,使得量化过程更为精细,有效捕捉权重分布特性。这一方案已在 DeepSeek V3 模型中默认启用,为模型在高效推理的同时保持较高精度提供了有力保障。

在如此极致的优化之下,SGLang 团队实现了从解码计算到内存管理、从单节点优化到跨节点协同的全方位提升。这些技术创新使得 SGLang 在 DeepSeek 模型在保持高精度的基础上,其输出吞吐率最高可达 7 倍提升,并在高并发和大规模部署场景中展现出卓越的性能和灵活性。更多详细技术信息及使用案例,请参阅官方 Blog 与相关技术演示文稿。

二、Zero-Overhead Batch Scheduler:调度器的效能革命

在传统推理引擎中,尽管大模型的推理主要依赖 GPU 运算,但 CPU 仍需承担批调度、内存分配、前缀匹配等大量工作。未经充分优化的推理系统往往会将多达一半的时间耗费在这些 CPU 开销上,严重影响整体性能。SGLang 一直以高效的批调度器著称,而在 0.4 版本中,团队进一步突破,实现了近乎零开销的批调度器。

这一技术的核心在于将 CPU 调度与 GPU 计算重叠执行。具体来说,调度器提前一批运行,在 GPU 执行当前任务的同时,便同步准备好下一批所需的所有元数据。这样一来,GPU 始终处于忙碌状态,无需等待 CPU 的调度结果,成功隐藏了诸如匹配 radix cache 等较为昂贵的操作的开销。通过 Nsight profiling 工具的测试显示,在连续五个解码批次中,GPU 全程保持高负载,未出现任何空闲时段(注:该测试基于 Triton attention 后端,FlashInfer 后端将在后续版本中进一步优化)。

借助这一优化,SGLang v0.4 能够充分挖掘 GPU 的计算潜力,在 batch size 显著的情况下,实现了相较于上一版本的明显提升。尤其在小模型和大规模张量并行场景下,这一优化效果尤为明显。该近零开销批调度技术已默认启用,用户无需额外配置,即可享受性能上的显著提升。

三、多模态支持:视觉与语言的协同加速

在多模态应用场景中,SGLang 持续与国内外顶尖的多模态技术团队深度合作,将先进的视觉与语言处理能力无缝集成到 SGLang  中。现有方案使得系统能够同时应对单图像、多图像以及视频任务,实现了在三大计算机视觉场景中的先进性能,为后续多模态应用奠定了坚实基础。

在实现上,SGLang 支持通过 OpenAI 兼容的视觉 API 提供服务。该接口能够处理纯文本输入,还可以接受交错文本、图像和视频的混合输入,满足复杂应用场景下多模态数据的协同处理需求。用户无需额外开发,即可通过统一的 API 调用体验多模态推理的便捷与高效。

官方提供的 benchmark 结果显示,在 VideoDetailDescriptions 和 LLaVA-in-the-wild 数据集上,集成后的多模态模型在保证推理准确性的同时,相较于 HuggingFace/transformers 的原始实现,性能最高可提升 4.5 倍。这一加速效果得益于 SGLang Runtime 的高效调度和轻量化设计,使得系统在处理多类型数据时始终能够保持较高的吞吐率。

目前为止,SGLang 已经在多模态支持方面展示了卓越的兼容性和扩展能力,后续还将邀请更多开发者重构相关代码并且进行更多模型乃至最新的 cosmos 世界模型和 -o 流式模型的支持。通过交互式的文本、图像和视频输入,SGLang 不仅大幅提升了多模态任务的处理效率,同时也为实际应用场景下的复杂数据协同计算提供了有力的技术保障。更多详细的使用方法和性能数据,请参考官方技术文档及 benchmark 报告。

四、X-Grammar:结构化生成的范式重构

在约束解码领域,SGLang 利用了 XGrammar 系统在结构化生成方面更是实现了全新的范式重构,显著突破了传统约束解码的性能瓶颈。

在上下文扩展方面,XGrammar 针对每条语法规则增加了额外的上下文信息检测,从而有效减少了与上下文依赖相关的 token 数量。这一改进使系统在处理复杂语法时能够更早识别并利用规则隐含的语义信息,从而降低了解码过程中不必要的状态切换开销。

为了高效管理多条扩展路径产生的执行状态,XGrammar 采用了基于树结构的数据组织方式,构建了持久化执行栈。该设计不仅能够高效地管理多个执行栈,还可以在面对拆分与合并操作时保持数据结构的稳定性和高效性,确保整个解码流程始终流畅运行。

在下推自动机结构优化方面,XGrammar 借鉴了编译器设计中的内联优化和等价状态合并技术,对自动机中的节点进行精简。通过减少不必要的状态节点,系统能够更迅速地完成语法规则的匹配与转换,从而显著提升了解码效率。

此外,为充分发挥多核 CPU 的计算能力,XGrammar 对语法编译过程进行了并行化处理。语法规则的编译任务被分配到多个 CPU 核心上同时执行,不仅大幅缩短了编译时间,也为后续多任务解析提供了坚实的基础。

综合上述各项优化措施,XGrammar 技术的集成,使 SGLang 在 JSON 解码等约束解码任务上实现了 10 倍的加速效果。在处理复杂结构化数据和工具调用场景时,XGrammar 不仅大幅降低了解码延迟,还为大规模在线服务提供了可靠的性能保障。

有关 XGrammar 的进一步介绍,SGLang 团队已在官方博客中进行了深入探讨,相关技术文档可供参考。

五、Cache-Aware Load Balancer:智能路由的架构突破


在 SGLang v0.4 中,引入了独出心裁的全新 Cache-Aware Load Balancer,为大模型推理系统提供了智能路由的架构突破,全部以 Rust 编写,相比于 Python 大幅减少 Service Overhead。该负载均衡器采用基于字符级前缀匹配的路由算法,通过合并后的 Radix Tree 实现无需 Tokenization 的匹配。系统能够根据各工作节点的前缀 KV 缓存命中率进行动态评估,并自动选择缓存命中率较高的节点来处理请求。与传统的轮询调度方式相比,此方案在实际测试中展示了最高可达将近两倍的吞吐量提升,以及将近四倍的缓存命中率改进。随着工作节点数量的增加,这种优势更为明显,充分体现了负载均衡策略在多节点分布式部署中的扩展性。

为了有效管理缓存资源,SGLang 的负载均衡器内部引入了懒更新的 LRU 淘汰策略,对近似 Radix Tree 中访问频率较低的叶子节点进行定期清理,从而防止内存过度膨胀并保持树结构的高效性。此举不仅优化了内存使用,还为整个推理系统带来了更稳定的缓存性能。在分布式部署场景下,系统通过 HTTP 接口实现了秒级动态扩缩容,允许在集群中快速增减工作节点。得益于这一智能路由设计,SGLang 在多节点集群中的吞吐性能呈现出近线性的扩展趋势,为大规模在线服务提供了坚实的性能和可靠性保障。

六、开发者工具链

在可用性和易用性方面,SGLang 提供了与 OpenAI API 兼容的接口层,支持 Chat、Completions、Embeddings 等常见功能,开发者仅需替换端点即可快速无缝迁移。对于更灵活的部署方式,离线引擎模式(Offline Engine)允许单脚本同时驱动多节点推理,无需独立服务化,从而大幅简化了运维成本。

为了让开发者能够深入了解模型状态并进行精细调优,SGLang 内置了 Prometheus 监控集成,实时追踪吞吐量(Throughput)、延迟(Latency)和显存使用(GPU Memory Pressure)等核心指标;多 LoRA 动态加载(Dynamic LoRA Switching)则让同一服务可在显存复用率高达 90% 的情况下,热切换多个不同的 LoRA 适配器(Low-Rank Adaptation);而约束解码(Constrained Decoding)提供了 JSON、GBNF 等格式的强制校验能力,将生成错误率降至极低水平,满足生产场景对输出格式的一致性要求。

七、社区与未来规划

目前,SGLang 在全球范围内已经汇聚了 30 余位核心贡献者。在接下来的 2025 H1 阶段中,团队将致力于完善实战场景下的 PD 分离、Speculative Decoding 的长文本优化、推动多级缓存(GPU/CPU/Disk)策略落地,并继续强化并行策略以适配千亿级 MoE 模型。除开本身推理效果的优化,SGLang 团队也将致力推理引擎的广泛落地,继续支持 RAG、multi-Agent、Reasoning、RLHF 等等领域的 AI 落地。最后,SGLang 也将在算子覆盖率与性能上持续优化,支持更多的更广泛的硬件,力争为开源社区提供更加先进的一站式大模型推理方案。

八、新的一年,与社区共赴星辰大海


开源一周年,SGLang 的成长轨迹印证了一个技术真理:顶尖的工程实践,永远诞生于开发者社区的协作共振。从首个支持 Prefix Cache 的推理框架,到斩获 11K Star、月均 10 万下载量的开源明星;从 xAI、NVIDIA、AMD 等巨头的深度集成,到为 DeepSeek 模型的最佳开源推理引擎 ——SGLang 的每一次技术突破,都源于社区开发者的真实需求与共创智慧。

在 SGLang 的代码仓库中,200+ 社区贡献不仅带来了 Multi-head Latent Attention、Block-wise FP8 等核心创新,更催生了开发者工具链的全面进化:支持多模态的视觉语言模型、热切换 LoRA 的显存复用、JSON 结构化生成的极速校验…… 这些能力背后,是三十余位核心贡献者与数百开发者的技术接力。正如 LMSYS Org 组织秉持的核心理念,技术生态的繁荣,从不是单打独斗的奇迹。当我们看到 SGLang 在 DeepSeek-R1 上实现狂飙式吞吐,在 128k 长文本中达到超低延迟,这不仅是框架的胜利,更是开源社区 “百花齐放” 的明证 —— 从 LinkedIn 的分布式部署实践,到 NVIDIA 的 Triton 内核优化,再到普通开发者提交的数百个性能调优 PR,每个参与者都在为大模型落地这一终极目标添砖加瓦。

一枝独秀不是春,百花齐放春满园。SGLang 的开源故事,正在诠释一个属于开发者的黄金时代:在这里,工程师的每一行代码都可能影响数百万用户的体验,研究者的每个创意都有机会重塑技术边界。SGLang 团队也诚邀每一位感兴趣的朋友加入社区,参与 Slack 与 Github 上的技术讨论,在全球 Meetup 中分享实战洞察 —— 因为下一个改变行业的优化方案,或许就诞生于你的一次 git commit。

  • GitHub 仓库: https://github.com/sgl-project/sglang

  • Slack 社区:slack.sglang.ai

  • DeepSeek 优化指南: https://docs.sglang.ai/references/deepseek.html


立刻体验最新版本的 SGLang,让大模型推理再上新台阶!
© 

(文:机器之心)

欢迎分享

发表评论