高效推理归档

突破扩散LLM瓶颈，英伟达港大提全新Fast-dLLM，推理加速27.6倍！

2025年6月17日16时作者新智元

方式，借助KV Cache和并行解码，将Diffusion LLM推理加速达27.6倍。
如果你看过

华为攻克AI推理「想太多」问题！新方法让大模型推理提速60%，准确率还高了

2025年5月29日16时作者量子位

华为提出S-GRPO方法，通过’串行分组 + 衰减奖励’设计让大模型提前终止思考，提高推理效率60%，生成更精确的答案。

华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一

2025年5月28日23时作者机器之心

大型语言模型中的兴起，使得以较小的计算开销换取更大能力成为可能。然而，传统 MoE 普遍存在专家激活

爆！三大热门大型模型服务方案实测：VLLM、LLaMA.cpp、SGLang 谁才是你的最强生产力引擎？

2025年5月19日14时作者 AI技术研习社

文章介绍了三种当前流行的大型语言模型（LLM）和服务方案：VLLM、LLaMA.cpp HTTP Server 和 SGLang。VLLM 以其高性能和快速响应著称；LLaMA.cpp 是一个轻量级的本地部署选项，适合没有高端 GPU 的用户；SGLang 则是一个智能框架，支持多步骤推理和函数调用，适合需要自定义 DSL 的场景。文章详细比较了每种方案的特点、优点及适用场景，并提醒了各自可能遇到的问题。