初探最大更新参数化muP:超参数的跨模型尺度迁移规律 下午11时 2025/03/30 作者 PaperWeekly 经网络 众所周知,完整训练一次大型 LLM 的成本是昂贵的,这就决定了我们不可能直接在大型 LLM