混合精度归档

DeepSeek的“服务器繁忙”让所有人抓狂，背后究竟是怎么回事

下午12时 2025/02/13 作者硅星人Pro

服务器繁忙，请稍后再试”，正在让各地用户抓狂。
此前不太被大众所知的DeepSeek，因2024年1

下午2时 2025/02/10 作者 GiantPandaCV

220718268
编辑丨GiantPandaCV
今年 10 月在费城开 COLM 的时候，我有幸

下午2时 2024/11/29 作者量子位

清华大学NLP实验室提出Delta-CoMe模型增量压缩技术，80G的A100 GPU可加载50个7B模型，节省显存约8倍。该方法结合低秩分解和低比特量化技术，显著提升复杂任务性能并兼顾效率，优于传统微调方法。