Qwen2.5-14B-Instruct 归档

大模型推理部署的几个基本认知及prompt压缩策略用于COT推理微调尝试

2025年2月21日14时作者老刘说NLP

2025年02月21日星期x，介绍了大模型推理压缩策略，包括TokenSkip方法用于Controllable Chain-of-Thought（COT），通过分析和剪枝减少冗余token提高推理效率。相关研究文献推荐加入了LoRA微调技术。