华为又开源了个大的:超大规模MoE推理秘籍
华为开源Omni-Infer项目,提供超大规模MoE模型推理的框架和加速套件。支持昇腾硬件平台上的大模型推理,并实现PD分离自动化部署,简化使用环境与安装流程。
华为开源Omni-Infer项目,提供超大规模MoE模型推理的框架和加速套件。支持昇腾硬件平台上的大模型推理,并实现PD分离自动化部署,简化使用环境与安装流程。
FlashMLA发布首日即引发广泛关注,通过智能调度大幅提升GPU利用率;DeepEP优化MoE模型通信效率;DeepGEMM实现高效FP8矩阵乘法,性能接近专家调优库;DualPipe+EPLB双剑合璧提升并行计算效率至30%以上;3FS文件系统进一步加速AI数据访问速度。