vLLM 归档 - 每时AI

图解Vllm V1系列7：使用AsyncLLM做异步推理

2025年7月4日14时作者 GiantPandaCV

文章介绍了如何使用vllm进行最小程度的异步二次开发，重点讲解了AsyncLLM的工作原理和如何通过生成异步协程来提高单条请求处理效率。

腾讯发布混元-A13B，可能是效率最高的开源大模型

2025年6月30日11时作者路过银河AI

Hunyuan-A13B
，这是一个基于细粒度混合专家（MoE）架构的创新且开源的大语言模型（LL

华为昇腾推理对决：开源vLLM vs 官方MindIE，数据说话「Qwen与DeepSeek推理实测」

2025年6月17日11时作者 AI寒武纪

表现良好的 MindIE 推理引擎
，并原生支持 Atlas 800 A2 系列和 Atlas 30

DeepSeek研究员1200行代码复刻vLLM，H800硬件实测性能反超原版

2025年6月13日16时作者量子位

仅用不到1200行代码实现Nano-vLLM，该项目由DeepSeek研究员俞星凯创作。Nano-vLLM有三大特点：快速离线推理、可读性强的代码库以及优化套件。通过比较vLLM与Nano-vLLM在不同硬件和模型配置下的基准测试结果，Nano-vLLM表现出色。

图解Vllm V1系列5：调度器策略（Scheduler）

2025年6月11日14时作者 GiantPandaCV

online serving 这两种场景下的整体运作流程，以offline batching为例：

135 个项目、七大趋势、三大赛道：撕开大模型开源生态真相，你会怎么卷？

2025年5月29日16时作者机器之心

Claude
三大开发者大会接连登场的一周里，微软为
Windows
加装模型上下文协议（
MCP

爆！三大热门大型模型服务方案实测：VLLM、LLaMA.cpp、SGLang 谁才是你的最强生产力引擎？

2025年5月19日14时作者 AI技术研习社

文章介绍了三种当前流行的大型语言模型（LLM）和服务方案：VLLM、LLaMA.cpp HTTP Server 和 SGLang。VLLM 以其高性能和快速响应著称；LLaMA.cpp 是一个轻量级的本地部署选项，适合没有高端 GPU 的用户；SGLang 则是一个智能框架，支持多步骤推理和函数调用，适合需要自定义 DSL 的场景。文章详细比较了每种方案的特点、优点及适用场景，并提醒了各自可能遇到的问题。

vLLM 实战教程汇总，从环境配置到大模型部署，中文文档追踪重磅更新

2025年5月9日16时作者 HyperAI超神经

系列 vLLM 相关的实用教程与模型案例，快来体验吧~
随着大语言模型（LLM）逐步走向工程化与规模

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31