GPU显存开销归档

ICLR 2025 告别Token丢弃：更适合CoT和多轮对话的长文本推理加速方法

2025年5月13日16时作者 PaperWeekly

OmniKV 提出了一种创新性的动态上下文选择方法，用于高效处理长上下文 LLM 推理。它无需丢弃任何 Token，通过动态选择实现计算稀疏，显著提升推理速度和吞吐量，且在各种预算下均优于丢弃 Token 的方法。