英伟达暴力优化DeepSeek R1，推理速度暴涨25倍！

DeepSeek最近爆火，确实是让AI圈更热闹了。

作为AI圈算力供应商的老大哥英伟达终于下场了。

就像我之前说的一样，英伟达会不断地去提供一些新思路、新技术去引领AI发展。

今天英伟达真是整大活儿了。

好消息，是开源的。

DeepSeek R1在Blackwell架构上的优化取得了重大的突破。

这到底意味着什么？

简单来讲，DeepSeek R1的推理性能暴涨25倍，成本降低了20倍。

再通俗点，更快了，更便宜了。

这个优化感觉有点太爽了。。。。

这可不像现在苹果手机一样每一代都是挤牙膏，涨那20%有什么用。

直接就是25倍的性能增长。

通过使用FP4精度，DeepSeek-R1 在MMLU通用智能基准测试中实现了99.8%的FP8精度。

这意味着在保持高精度的同时，DeepSeek-R1 可以以更低的成本和更高的效率运行，

不知道有没有开发者跟我一样的想法，API价格又要大规模降价了，爽爽爽！

简单来讲下这个柱状图，你就知道提升了多少。

DeepSeek R1 在B200上跑，真是像猛兽一样，每秒21089tokens。

然而H100只有每秒844tokens，差了20多倍。

H100和B200的区别可能有朋友不知道，

总结下技术特点

TensorRT优化：NVIDIA的TensorRT技术在DeepSeek-R1的优化中发挥了关键作用。通过TensorRT，DeepSeek-R1能够在Blackwell架构上实现更高的性能和更低的成本。让模型在保持高精度的同时，能够以更快的速度处理数据。
FP4精度：DeepSeek-R1使用FP4精度，这比传统的FP8精度更节能、更高效。FP4精度在保持高精度的同时，显著降低了计算成本和能耗。

坏消息，你想用的话，得先拥有8张B200显卡。

不过这并不影响API的价格可能会大幅降低的事实。

最终我们都是受益的。

项目链接

https://huggingface.co/nvidia/DeepSeek-R1-FP4

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

关注「开源AI项目落地」公众号

（文：开源AI项目落地）