推理速度归档

大模型评估排障指南 | 关于推理

下午2时 2025/04/25 作者 Hugging Face

大模型评估排障指南系列文章的第一篇。介绍了调整 batch size、数据并行、精度调整、估算内存需求、量化、模型并行和用 CPU 减负等方法优化推理速度和减少内存占用的策略。

下午11时 2025/04/22 作者量子位

是清华及英伟达研究人员最新提出的观点。
他们发现，作为离散扩散模型中性能最强的类别，掩码扩散模型可能

下午4时 2025/04/20 作者新智元

mba架构，使长文本推理速度提升3倍，同时还能保持高性能，开源版本包括8B和56B尺寸。训练过程采用

下午11时 2025/04/15 作者新智元

1，实力究竟如何？在众多实测中，它的表现的确可圈可点，但却依然打不过Gemini 2.5 Pro和C

下午11时 2025/03/20 作者 Founder Park

章各说各话、相互矛盾的现象。
硅基流动的这篇文章，以 DeepSeek-R1 为案例，梳理了大家在a

下午2时 2025/03/10 作者 GiantPandaCV

读
，这里简单回顾一下核心idea。之所以在 MLA 中使用DP的方式是因为 MLA 在存储 KV

下午2时 2025/02/21 作者老刘说NLP

2025年02月21日星期x，介绍了大模型推理压缩策略，包括TokenSkip方法用于Controllable Chain-of-Thought（COT），通过分析和剪枝减少冗余token提高推理效率。相关研究文献推荐加入了LoRA微调技术。

下午11时 2025/02/12 作者量子位

字节推出UltraMem稀疏模型架构，相比MoE和PKM架构，可实现高达83%的推理成本降低和2-6倍的推理速度提升。