AMD GPU性能暴涨7倍,优化算法首次开源!高效MoE支持任意专家数量 下午4时 2025/04/03 作者 新智元 PERT_NUMBER==256),并积极利用共享内存(5kB LDS)和寄存器(52 VGPRs,