Hugging Face 发布并开源大模型训练书籍《Ultra-Scale Playbook》

Hugging Face 发布并开源大模型训练书籍《Ultra-Scale Playbook》。涵盖 5D 并行性、ZeRO、快速 CUDA 内核、计算与通信为何以及如何重叠等所有内容 —— 介绍所有扩展瓶颈和工具，包括动机、理论、来自 Hugging Face 4000 多次扩展实验的交互式图表，同时还配有 NotebookLM 播客。

DeepSeek 仅用 500 万美元是如何训练的？
Mistral 为何训练一个混合专家模型？
PyTorch 原生数据并行实现为何在底层如此复杂？
所有的并行技术有哪些？它们为何被发明？
扩展时我应该使用 ZeRO-3 还是流水线并行？这两种技术背后有什么故事？
Meta 用来训练 Llama 3 的上下文并行是什么？它与序列并行有何不同？
FP8 是什么？它与 BF16 相比如何？

参考文献：
[1] https://huggingface.co/spaces/nanotron/ultrascale-playbook

（文：NLP工程化）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复