谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍 下午4时 2025/05/30 作者 机器之心 Fast-dLLM 提出分块 KV 缓存和置信度感知并行解码技术,显著提升扩散模型推理速度至原速的 27.6 倍,同时保持较高生成精度。