谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
Fast-dLLM 提出分块 KV 缓存和置信度感知并行解码技术,显著提升扩散模型推理速度至原速的 27.6 倍,同时保持较高生成精度。
Fast-dLLM 提出分块 KV 缓存和置信度感知并行解码技术,显著提升扩散模型推理速度至原速的 27.6 倍,同时保持较高生成精度。
清华、中国人民大学与蚂蚁集团联合发布LLaDA模型,采用扩散方式打破自回归垄断,性能媲美Llama 3 8B。该模型颠覆大语言模型认知,采用掩码扩散模型训练范式,实现全局视角生成;在数学问题解答、多轮对话、代码生成等方面表现出色。相关资源包括论文和项目主页。