舍弃CUDA编程!CMU等用几十行代码将LLM编译成巨型内核,推理延迟可降6.7倍 2025年6月21日16时 作者 机器之心 理的核心计算引擎。 不过,CUDA 驱动的 LLM 推理面临着手动优化成本高、端到端延迟高等不足,需