初探最大更新参数化muP:超参数的跨模型尺度迁移规律 2025年3月30日23时 作者 PaperWeekly 经网络 众所周知,完整训练一次大型 LLM 的成本是昂贵的,这就决定了我们不可能直接在大型 LLM