Sparse Transformers稀疏推理加速器 上午8时 2025/06/12 作者 NLP工程化 大模型推理加速器Sparse Transformers通过稀疏化技术提升1.6-1.8倍性能,支持LLaMA 3B模型,并实现内存占用减少和生成速度提升。