DeepSeek-R1 用来优化GPU 内核？代码自动生成还比人写得好！

英伟达工程师最近用 DeepSeek-R1 模型加上“推理时扩展”技术，让 AI 自动生成 GPU 核心代码，也就是 GPU 内核。更让人惊讶的是，有些 AI 生成的代码甚至比工程师写的还要好！

随着 AI 模型处理越来越复杂的任务，它们对计算资源的需求也在不断增长。 GPU 内核作为执行计算任务的关键部分，其优化程度直接关系到模型的性能。然而，传统的内核优化需要大量时间和专业知识，效率低下。

NVIDIA 工程师们采用了 DeepSeek-R1 模型，这是一种开源的 AI 模型，能够根据给定的任务自动生成代码。结合推理时间扩展技术，工程师们让模型在推理过程中分配额外的计算资源，以评估多种可能的内核实现，并选择最优的一个。

实验中，DeepSeek-R1 模型首先根据手动输入的提示生成 GPU 内核代码。然后，这些代码在一个特殊的验证器上运行，验证器会分析生成的内核并创建新的提示，再输入给 DeepSeek-R1 模型。这个过程在闭环中不断迭代，直到生成最优的内核。

实验结果显示，这种方法产生了 100%的 Level-1 问题和 96%的 Level-2 问题的数值正确内核。利用 DeepSeek-R1 模型和推理时间扩展技术生成的优化 GPU 内核，在性能上有了显著提升。

与传统的 PyTorch API 相比，NVIDIA 工程师们的方法在某些内核类型上实现了 1.1 倍至 2.1 倍的速度提升。这一创新方法在处理某些复杂问题时，甚至超过了经验丰富的工程师手工优化的内核。

这一技术的成功应用，为 AI 模型在 GPU 编程领域的自动化和智能化提供了新的思路。未来，随着 DeepSeek-R1 模型的进一步发展和推理时间扩展技术的优化，我们有理由相信，AI 将在更多领域创造奇迹。

参考来源：https://developer.nvidia.com/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/

公众号私信“进群”入群讨论。

（文：AI工程化）