让DeepSeek模型变更强!SGLang团队将吞吐量提高5倍,API成本降到官方五分之一

SGLang团队在开源技术博客中介绍了如何优化DeepSeek模型,在96个H100 GPU上实现了显著性能提升。通过引入PD分解、TBO以及专家重新平衡等策略,提高了预填充和解码阶段的吞吐量,并减少了不平衡现象对性能的影响。

最强开源模型!阿里发布并开源Qwen3,无缝集成思考模式、多语言、便于Agent调用

阿里巴巴发布Qwen3系列模型,包括两个专家混合(MoE)模型和六个Dense模型,并开源了部分权重。该系列在多个基准测试中表现出与OpenAI等顶级模型相当的性能。Qwen3还具有高效的“思考模式”,支持119种语言且训练数据量是Qwen2.5的两倍,有助于Agent调用。部署成本显著降低,整体推理成本也有所节省。