TGI v3 横空出世：性能碾压vLLM 13倍！

大模型推理引擎江湖再起波澜！

HuggingFace的「文本生成推理引擎」（TGI）v3版本突然杀出重围，一次性把性能提升到了离谱的程度：不仅能处理3倍的token数量，在长文本上更是比vLLM快了13倍！

最骚的是，你甚至不需要任何配置就能获得这样的性能！

TGI v3到底有多厉害？

让我们看看它创下的这些惊人记录：

在单个L4（24GB）显卡上，TGI v3可以处理30k个token的llama 3.1-8B模型输入，而vLLM只能勉强处理10k个。这意味着你可以用更少的显存处理更长的文本！

不仅如此，在处理超长文本（200k+ tokens）时，vLLM需要花费27.5秒才能完成的任务，TGI 只需要2秒就能搞定！

这种「降维打击」是怎么做到的？

HuggingFace团队使用了一系列黑科技：

这些优化不是简单的堆砌，而是深思熟虑的结果。

比如logits计算这个大户，在处理100k+ tokens时会占用25.6GB显存，比llama 3.1-8b整个模型（16GB）还大！

TGI团队想出了一个妙招：既然大部分用户不需要每个token的logits，那就默认不计算它们。需要的用户可以通过flag手动开启，但会牺牲一些token处理能力。

对此，ML工程师Maziyar PANAHI表示：「他们早就告诉我该离开TGI了，但我说等3.0版本再说。现在看来我的等待没有白费！」

这次的升级不仅让TGI在性能上实现了质的飞跃，更重要的是它把「零配置」的理念推向了极致。

HuggingFace团队最后说到：「把所有flag都删了吧，你很可能会得到最好的性能。」

在生产环境中，他们已经完全不需要任何配置标志了。系统会自动评估硬件和模型，选择最佳参数。

简单，粗暴，有效。

这就是TGI v3。

（文：AGI Hunt）