600微秒归档 - 每时AI

妈妈再也不用担心延迟了！斯坦福手搓Llama超级内核，推理仅需0.00068秒

2025年5月29日23时作者新智元

nel」，将Llama-1B模型前向传播完整融合进单一GPU内核，实现推理时间低于1毫秒。在B200