Nils Graef归档 - 每时AI

新注意力让大模型上下文内存占用砍半！精度不减还能加速2倍

2025年3月17日16时作者量子位

前苹果ASIC架构师Nils Graef与UC伯克利本科生Andrew Wasielewski提出Slim Attention，通过只存储K而不直接存储V实现更少的内存占用和更高精度。