FP4精度归档 - 每时AI

英伟达暴力优化DeepSeek R1，推理速度暴涨25倍！

2025年2月26日23时作者开源AI项目落地

英伟达推出DeepSeek R1在Blackwell架构上的优化，其推理性能提升了25倍，成本降低了20倍。通过使用FP4精度，DeepSeek-R1实现了更低的成本和更高的效率，可能带动API价格大幅下降。

2025年1月30日16时作者量子位

首个FP4精度的大模型训练框架发布，可使所需存储和计算资源更少。与BF16相当的训练效果下，最高可达130亿参数规模的模型。研究团队采用定制化的FP4矩阵乘法、不同粒度量化策略以及新的梯度估计方法。