英伟达工程师最近用 DeepSeek-R1 模型加上“推理时扩展”技术,让 AI 自动生成 GPU 核心代码,也就是 GPU 内核。更让人惊讶的是,有些 AI 生成的代码甚至比工程师写的还要好!
随着 AI 模型处理越来越复杂的任务,它们对计算资源的需求也在不断增长。 GPU 内核作为执行计算任务的关键部分,其优化程度直接关系到模型的性能。然而,传统的内核优化需要大量时间和专业知识,效率低下。
NVIDIA 工程师们采用了 DeepSeek-R1 模型,这是一种开源的 AI 模型,能够根据给定的任务自动生成代码。结合推理时间扩展技术,工程师们让模型在推理过程中分配额外的计算资源,以评估多种可能的内核实现,并选择最优的一个。

实验中,DeepSeek-R1 模型首先根据手动输入的提示生成 GPU 内核代码。然后,这些代码在一个特殊的验证器上运行,验证器会分析生成的内核并创建新的提示,再输入给 DeepSeek-R1 模型。这个过程在闭环中不断迭代,直到生成最优的内核。

实验结果显示,这种方法产生了 100%的 Level-1 问题和 96%的 Level-2 问题的数值正确内核。利用 DeepSeek-R1 模型和推理时间扩展技术生成的优化 GPU 内核,在性能上有了显著提升。

与传统的 PyTorch API 相比,NVIDIA 工程师们的方法在某些内核类型上实现了 1.1 倍至 2.1 倍的速度提升。这一创新方法在处理某些复杂问题时,甚至超过了经验丰富的工程师手工优化的内核。
这一技术的成功应用,为 AI 模型在 GPU 编程领域的自动化和智能化提供了新的思路。未来,随着 DeepSeek-R1 模型的进一步发展和推理时间扩展技术的优化,我们有理由相信,AI 将在更多领域创造奇迹。
参考来源:https://developer.nvidia.com/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/
(文:AI工程化)