从文件到块: 提高 Hugging Face 存储效率

Hugging Face 使用基于 Git LFS 的存储方案在 GitHub Hub 上存储模型、数据集和 Spaces。Xet 团队提出了一个创新的解决方案——基于内容的分块 (CDC),通过只传输变化的数据块来提升存储效率和迭代速度,目前该技术已应用于多个仓库,并实现了数据去重。

AWQ:模型量化应当关注激活值

这篇文章介绍了AWQ(activation-aware weight quantization),一种用于模型量化的新方法。通过保留0.1%的参数不进行量化可以显著提高PPL性能,但混合精度系统实现较为困难。AWQ在边缘设备使用中表现优异,并且需要更小和鲁棒性的校准数据集。