TGI v3 横空出世:性能碾压vLLM 13倍!

大模型推理引擎江湖再起波澜!

HuggingFace的「文本生成推理引擎」(TGI)v3版本突然杀出重围,一次性把性能提升到了离谱的程度:不仅能处理3倍的token数量,在长文本上更是比vLLM快了13倍

最骚的是,你甚至不需要任何配置就能获得这样的性能!

TGI v3到底有多厉害?

让我们看看它创下的这些惊人记录

在单个L4(24GB)显卡上,TGI v3可以处理30k个token的llama 3.1-8B模型输入,而vLLM只能勉强处理10k个。这意味着你可以用更少的显存处理更长的文本!

不仅如此,在处理超长文本(200k+ tokens)时,vLLM需要花费27.5秒才能完成的任务,TGI 只需要2秒就能搞定!

这种「降维打击」是怎么做到的?

HuggingFace团队使用了一系列黑科技

  • 他们优化了前缀缓存结构,让查询匹配的开销只有6微秒

  • 开发了新的「闪电推理」和「闪电解码」内核

  • 改进了内存管理,大幅降低了显存占用

  • 让系统能够自动评估硬件和模型,选择最佳配置

这些优化不是简单的堆砌,而是深思熟虑的结果

比如logits计算这个大户,在处理100k+ tokens时会占用25.6GB显存,比llama 3.1-8b整个模型(16GB)还大!

TGI团队想出了一个妙招:既然大部分用户不需要每个token的logits,那就默认不计算它们。需要的用户可以通过flag手动开启,但会牺牲一些token处理能力。

对此,ML工程师Maziyar PANAHI表示:「他们早就告诉我该离开TGI了,但我说等3.0版本再说。现在看来我的等待没有白费!

这次的升级不仅让TGI在性能上实现了质的飞跃,更重要的是它把「零配置」的理念推向了极致。

HuggingFace团队最后说到:「把所有flag都删了吧,你很可能会得到最好的性能。」

在生产环境中,他们已经完全不需要任何配置标志了。系统会自动评估硬件和模型,选择最佳参数。

简单,粗暴,有效。

这就是TGI v3。

(文:AGI Hunt)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往