vLLM 获十倍增长!2025目标:单卡吊打GPT-4o
小小vLLM在2024年下半年部署GPU使用时长增长10倍。它在GitHub上的星标数量、贡献者数量、月下载量分别增长了2.3倍、3.8倍和4.5倍,支持多种模型架构及硬件平台。计划实现单GPU运行GPT-4级别模型,并将量化、前缀缓存等功能标配。
小小vLLM在2024年下半年部署GPU使用时长增长10倍。它在GitHub上的星标数量、贡献者数量、月下载量分别增长了2.3倍、3.8倍和4.5倍,支持多种模型架构及硬件平台。计划实现单GPU运行GPT-4级别模型,并将量化、前缀缓存等功能标配。