大模型推理部署的几个基本认知及prompt压缩策略用于COT推理微调尝试

2025年02月21日星期x,介绍了大模型推理压缩策略,包括TokenSkip方法用于Controllable Chain-of-Thought(COT),通过分析和剪枝减少冗余token提高推理效率。相关研究文献推荐加入了LoRA微调技术。

AWQ:模型量化应当关注激活值

这篇文章介绍了AWQ(activation-aware weight quantization),一种用于模型量化的新方法。通过保留0.1%的参数不进行量化可以显著提高PPL性能,但混合精度系统实现较为困难。AWQ在边缘设备使用中表现优异,并且需要更小和鲁棒性的校准数据集。