英伟达暴力优化DeepSeek R1,推理速度暴涨25倍!
英伟达推出DeepSeek R1在Blackwell架构上的优化,其推理性能提升了25倍,成本降低了20倍。通过使用FP4精度,DeepSeek-R1实现了更低的成本和更高的效率,可能带动API价格大幅下降。
英伟达推出DeepSeek R1在Blackwell架构上的优化,其推理性能提升了25倍,成本降低了20倍。通过使用FP4精度,DeepSeek-R1实现了更低的成本和更高的效率,可能带动API价格大幅下降。
首个FP4精度的大模型训练框架发布,可使所需存储和计算资源更少。与BF16相当的训练效果下,最高可达130亿参数规模的模型。研究团队采用定制化的FP4矩阵乘法、不同粒度量化策略以及新的梯度估计方法。