Hugging Face 发布并开源大模型训练书籍《Ultra-Scale Playbook》

Hugging Face 发布并开源大模型训练书籍《Ultra-Scale Playbook》。涵盖 5D 并行性、ZeRO、快速 CUDA 内核、计算与通信为何以及如何重叠等所有内容 —— 介绍所有扩展瓶颈和工具,包括动机、理论、来自 Hugging Face 4000 多次扩展实验的交互式图表,同时还配有 NotebookLM 播客。

  • DeepSeek 仅用 500 万美元是如何训练的?
  • Mistral 为何训练一个混合专家模型?
  • PyTorch 原生数据并行实现为何在底层如此复杂?
  • 所有的并行技术有哪些?它们为何被发明?
  • 扩展时我应该使用 ZeRO-3 还是流水线并行?这两种技术背后有什么故事?
  • Meta 用来训练 Llama 3 的上下文并行是什么?它与序列并行有何不同?
  • FP8 是什么?它与 BF16 相比如何?

参考文献:
[1] https://huggingface.co/spaces/nanotron/ultrascale-playbook



(文:NLP工程化)

欢迎分享

发表评论