推理速度归档 - 第2页共2页

ICLR 2025 比MoE快6倍，成本暴降83%！字节发布超稀疏架构UltraMem

下午11时 2025/02/12 作者 PaperWeekly

文章介绍了字节跳动豆包大模型团队提出的新稀疏模型架构 UltraMem，该架构有效解决了 MoE 推理时高额的访存问题，推理速度提升2-6倍，成本降低83%。

下午2时 2025/01/30 作者 AI技术研习社

上一篇文章我们探讨了如何使用自定义数据集进行模型训练，这次我将重点介绍如何使用
LoRA 微调
Qw

下午10时 2024/12/25 作者 GiantPandaCV

这篇文章介绍了AWQ（activation-aware weight quantization），一种用于模型量化的新方法。通过保留0.1%的参数不进行量化可以显著提高PPL性能，但混合精度系统实现较为困难。AWQ在边缘设备使用中表现优异，并且需要更小和鲁棒性的校准数据集。