显著减少 GPU 内存消耗归档 - 每时AI

HeadInfer：通过逐头卸载实现内存高效的大语言模型推理

上午8时 2025/02/26 作者 NLP工程化

HeadInfer 是一个内存高效的推理框架，专为大型语言模型设计，通过逐头卸载策略减少 GPU 内存消耗。