推理速度归档

1200行代码逆袭！DeepSeek工程师开源轻量级vLLM，吞吐量逼近原版

2025年6月13日16时作者机器之心

Nano-vLLM 是一个由 DeepSeek AI 研究者俞星凯构建的轻量级 vLLM 实现，代码简化至 1200 行。其亮点包括快速离线推理、简洁易读的代码库以及优化套件等功能。与 vLLM 相比，Nano-vLLM 在输出 token 和时间上表现相近，但略逊于 vLLM 的吞吐量。

2025年6月13日14时作者 AI信息Gap

OpenAI 连续发布多项新功能，包括面向 ChatGPT Team 用户开放高算力模型 o3-pro、o3 模型使用额度翻倍至 200 次/周以及 ChatGPT Projects 功能升级等。

2025年4月25日14时作者 Hugging Face

大模型评估排障指南系列文章的第一篇。介绍了调整 batch size、数据并行、精度调整、估算内存需求、量化、模型并行和用 CPU 减负等方法优化推理速度和减少内存占用的策略。

2025年4月22日23时作者量子位

是清华及英伟达研究人员最新提出的观点。
他们发现，作为离散扩散模型中性能最强的类别，掩码扩散模型可能

2025年4月20日16时作者新智元

mba架构，使长文本推理速度提升3倍，同时还能保持高性能，开源版本包括8B和56B尺寸。训练过程采用

2025年4月15日23时作者新智元

1，实力究竟如何？在众多实测中，它的表现的确可圈可点，但却依然打不过Gemini 2.5 Pro和C

2025年3月20日23时作者 Founder Park

章各说各话、相互矛盾的现象。
硅基流动的这篇文章，以 DeepSeek-R1 为案例，梳理了大家在a

2025年3月10日14时作者 GiantPandaCV

读
，这里简单回顾一下核心idea。之所以在 MLA 中使用DP的方式是因为 MLA 在存储 KV