Hugging Face 发布并开源大模型训练书籍《Ultra-Scale Playbook》。涵盖 5D 并行性、ZeRO、快速 CUDA 内核、计算与通信为何以及如何重叠等所有内容 —— 介绍所有扩展瓶颈和工具,包括动机、理论、来自 Hugging Face 4000 多次扩展实验的交互式图表,同时还配有 NotebookLM 播客。
-
DeepSeek 仅用 500 万美元是如何训练的? -
Mistral 为何训练一个混合专家模型? -
PyTorch 原生数据并行实现为何在底层如此复杂? -
所有的并行技术有哪些?它们为何被发明? -
扩展时我应该使用 ZeRO-3 还是流水线并行?这两种技术背后有什么故事? -
Meta 用来训练 Llama 3 的上下文并行是什么?它与序列并行有何不同? -
FP8 是什么?它与 BF16 相比如何?


参考文献:
[1] https://huggingface.co/spaces/nanotron/ultrascale-playbook
(文:NLP工程化)