10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型

CalibQuant团队在InternVL-2.5模型上提出了一种1比特量化方法,通过校准策略缓解了低比特数量化带来的失真问题。实验结果显示,在多种任务和内存限制下,该方法相比基线有显著的性能提升。