分布式训练归档

从 0 手撕 LLM 分布式训练：DP, ZeRO, TP, PP, CP, EP

2025年7月7日14时作者 GiantPandaCV

小冬瓜AIGC发布的X-R1开源框架课程，手撕PyTorch的五大并行算法DP、TP、PP、CP、EP，并实现分布式训练中的关键算法如Backward和MoE。该课程包含实操项目及多个测评工具，适合对LLM技术有兴趣的学员。

2025年5月30日14时作者小兵的AI视界

源项目，为用户提供了从聊天记录创造数字分身的完整解决方案
，满足了个性化智能助手的需求，同时也为
A

2025年5月6日16时作者新智元

新王Llama-Nemotron，是怎么训练出来的？刚刚放出的论文，把一切细节毫无保留地全部揭秘了！

2025年3月9日23时作者 PaperWeekly

可信人工智能
过去的两周里，DeepSeek 在社交媒体上宣告这是他们的开源周（OpenSource

2025年3月7日12时作者机器之心

近期研究提出COAT方法利用FP8量化技术，通过动态范围扩展和混合粒度精度流优化大型模型训练中的内存占用和加速速度，保持模型精度的同时显著减少显存使用并提升训练效率。

2025年2月27日14时作者 GiantPandaCV

cale-playbook
作者：nanotron
校正：pprp
GPU 深度挖掘——融合、线程化

2025年2月26日8时作者智东西

报道，昨夜，阿里云
视觉生成基座模型万相2.1（Wan）
宣布开源！
万相2.1共有两个参数规模，

2025年2月25日16时作者 APPSO

DeepSeek 开源周第二天，带来了 DeepEP 通信库，旨在优化混合专家系统和专家并行模型的高效通信。其亮点包括高效的全员协作通道、专为训练和推理预填充设计的核心以及灵活调控GPU资源的能力，显著提升MoE模型的性能和效率。