128K序列归档 - 每时AI

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

上午11时 2024/12/05 作者新智元

英伟达提出的新技术Star Attention能显著减少Transformer模型长序列推理时的计算量，从而提高效率和准确性。它通过将上下文分成较小块并在每个主机上独立处理这些块来实现，这有助于在不牺牲精度的情况下加速推理过程。