查找表归档 - 每时AI

ICML 2025 Spotlight｜华为诺亚提出端侧大模型新架构MoLE，内存搬运代价降低1000倍

2025年5月7日11时作者机器之心

Mixture-of-Experts（MoE）架构尽管稀疏激活减少了计算量，但显存资源受限的端侧部署仍面临挑战。研究提出Mixture-of-Lookup-Experts（MoLE），通过将专家输入改为嵌入(token) token，利用查找表代替矩阵运算，有效降低推理开销，减少数千倍传输延迟。