智能调度归档

华为又开源了个大的：超大规模MoE推理秘籍

2025年7月1日16时作者量子位

华为开源Omni-Infer项目，提供超大规模MoE模型推理的框架和加速套件。支持昇腾硬件平台上的大模型推理，并实现PD分离自动化部署，简化使用环境与安装流程。

2025年3月1日16时作者路过银河AI

FlashMLA发布首日即引发广泛关注，通过智能调度大幅提升GPU利用率；DeepEP优化MoE模型通信效率；DeepGEMM实现高效FP8矩阵乘法，性能接近专家调优库；DualPipe+EPLB双剑合璧提升并行计算效率至30%以上；3FS文件系统进一步加速AI数据访问速度。