DeepSeek 开源 DeepEP 高效通信库,专家并行不再是难题!

DeepSeek OpenSourceWeek 发布了首个面向MoE模型的开源EP通信库 DeepEP。它提供了高性能All-to-All通信内核、集群内和集群间全面支持,以及训练和推理预填充及推理解码低延迟内核等特性。性能测试显示其在不同场景下都能提供出色的通信性能。

承认低估阿里,大摩:AGI目标下,阿里云收入三年将翻倍,估值能给1400亿美元!

大摩上调阿里巴巴评级至‘超配’,目标价从100美元上调至200美元。预计阿里云收入三年内翻倍,EBITDA利润率将提高到约35%。基于乐观预期,阿里的分拆估值为每股200美元,其中云业务估值为每股60美元,使得阿里云市值达到1400亿美元。

Claude 3.7、QwQ-Max-Preview等推理大模型发布跟踪:兼看大模型逻辑推理技术总结及几点思考

近日推理大模型相关前沿回顾包括Claude 3.7的发布,Qwen的QwQ模型开源,FlashMLA的开源及PaliGemma 2 Mix模型的开源。文章还总结了大模型逻辑推理技术,并提出了一些值得思考的问题。