高效Attention引擎是怎样炼成的?陈天奇团队FlashInfer打响新年第一枪! 上午8时 2025/01/24 作者 新智元 FlashInfer论文介绍了高效的注意力引擎技术,利用块稀疏和可组合格式解决KV缓存存储问题,并提供了自定义和负载均衡调度功能。