MoE归档 - 每时AI

五一长假冲上HuggingFace榜第二，仅次于Qwen3！浙大哈佛「全能LoRA」杀疯了

下午11时 2025/05/08 作者极市干货

项目提出了一种基于上下文的零样本图像编辑框架，结合LoRA-MoE混合微调和早期噪声过滤策略，仅需极

下午11时 2025/04/01 作者机器之心

京大学、香港科技大学（广州）联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文

下午11时 2025/03/10 作者机器人开放社区

智元机器人发布首个通用具身基座大模型——智元启元大模型（Genie Operator-1），基于Vision-Language-Latent-Action(ViLLA)框架，由VLM和MoE组成，实现小样本快速泛化。

下午4时 2025/03/04 作者甲子光年

下，第一个有关大模型的冷思考出现了。
2月9日，潞晨科技创始人尤洋在社交媒体发表了一条“暴论”：Ma

下午7时 2025/03/02 作者老刘说NLP

，可视化图解moe讲的挺不错，转载过来并做翻译，当作记录，值得收藏慢慢看。
原文在：https://

下午4时 2025/02/27 作者机器之心

DeepSeek 发布了DualPipe和EPLB两个新工具以及训练和推理框架的分析数据，旨在帮助社区更好地理解通信-计算重叠策略和底层实现细节。

下午11时 2025/02/25 作者开源AI项目落地

昨天DeepSeek开源第一天即收获9000颗星，今日其新项目DeepEP发布两天后已获3900颗星星。支持低精度计算、优化NVLink和RDMA数据转发等特性，专为混合专家（MoE）和专家并行（EP）设计的高效通信库。

下午4时 2025/02/25 作者开源星探

今天是DeepSeek开源周的第二天，Alibaba的QwQ-Max预览版引起了关注。DeepEP项目在GPU上实现了显著性能提升，并且已获1000+ GitHub星。DeepSeek强调硬件效率和低延迟通信，其新开源技术让数据传输和计算实现重叠。

下午12时 2025/02/24 作者新智元

DeepSeek发布FlashMLA开源库，支持英伟达Hopper GPU。FlashMLA针对变长序列进行优化，显著提高推理速度和性能。