新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍 下午4时 2025/03/17 作者 量子位 前苹果ASIC架构师Nils Graef与UC伯克利本科生Andrew Wasielewski提出Slim Attention,通过只存储K而不直接存储V实现更少的内存占用和更高精度。