分块KV缓存归档 - 每时AI

谷歌之后，英伟达入局扩散大语言模型，Fast-dLLM推理速度狂飙27.6倍

下午4时 2025/05/30 作者机器之心

Fast-dLLM 提出分块 KV 缓存和置信度感知并行解码技术，显著提升扩散模型推理速度至原速的 27.6 倍，同时保持较高生成精度。