HeadInfer:通过逐头卸载实现内存高效的大语言模型推理 上午8时 2025/02/26 作者 NLP工程化 HeadInfer 是一个内存高效的推理框架,专为大型语言模型设计,通过逐头卸载策略减少 GPU 内存消耗。