Maximal Update Parametrization 归档 - 每时AI

初探最大更新参数化muP：超参数的跨模型尺度迁移规律

2025年3月30日23时作者 PaperWeekly

经网络
众所周知，完整训练一次大型 LLM 的成本是昂贵的，这就决定了我们不可能直接在大型 LLM