DeepSeek-R2 推迟发布?一场关于性能、芯片与时机的博弈
DeepSeek-R2 模型因 CEO 对性能不满及美国出口管制影响而推迟发布,目前面临算力短缺问题。该模型原计划在 2025 年初发布,但已延期多周,团队正尝试通过国产替代和优化模型结构来重新建立发布条件。
DeepSeek-R2 模型因 CEO 对性能不满及美国出口管制影响而推迟发布,目前面临算力短缺问题。该模型原计划在 2025 年初发布,但已延期多周,团队正尝试通过国产替代和优化模型结构来重新建立发布条件。
DeepSeek-R2再次被曝推迟发布,原因包括CEO不满意R2的表现和研发过程中缺少英伟达H20芯片。此前有传言称R1训练需要3万块H20、1万块H800和1万块H100,而R2预计会耗费更多算力资源。
2025 全球机器学习技术大会即将召开,汇聚 AI 领域顶尖专家,探讨大模型应用、智能体及行业落地等前沿话题。
DeepSeek 在 OpenSourceWeek 开源了两项 AI 训练加速技术,包括 DualPipe 和 EPLB。DualPipe 通过双向计算与通信提升了训练效率;EPLB 则优化了 MoE 架构中的资源分配,显著提高 GPU 的利用率。
DeepSeek 发布了DualPipe和EPLB两个新工具以及训练和推理框架的分析数据,旨在帮助社区更好地理解通信-计算重叠策略和底层实现细节。
DeepSeek开源周第四天发布三项优化并行策略的技术成果,包括DualPipe、EPLB和Profiling Data。DualPipe是一种双向流水线并行算法,旨在减少计算与通信阶段的气泡;EPLB是MoE模型负载均衡器,确保计算资源平衡利用;Profiling Data提供了实际应用中的效果数据可视化支持。
DeepSeek在OpenSourceWeek分享了多个开源项目,包括用于V3/R1训练的DualPipe、EPLB负载均衡算法以及用于深度学习模型的profile-data分析数据。