Sakana AI发布了一个突破性的AI CUDA工程师系统, 能够将PyTorch代码自动转换为高度优化的CUDA内核。该系统通过进化优化、内核交叉和创新档案等技术,可以实现比PyTorch原生操作快10-100倍的性能提升。系统包含四个主要阶段:代码转换和翻译、进化优化、创新档案构建。研究团队发布了超过17,000个经过验证的CUDA内核数据集,涵盖了230多个PyTorch操作。对81%的测试任务都实现了性能提升,其中20%的CUDA内核至少比PyTorch实现快2倍。这项技术有望大幅加速AI模型的训练和推理速度,推动AI系统向更高效方向发展。



参考文献:
[1] https://sakana.ai/ai-cuda-engineer/
(文:NLP工程化)