批量大小归档

社区供稿 | 3700 次预训练总结超参规律，开源海量实验，告别盲猜

下午2时 2025/04/17 作者 Hugging Face

参数优化至关重要。为了探究最佳超参数的规律，我们开展了大规模的实证研究，通过在不同配置上进行网格搜索

下午10时 2024/12/01 作者 PaperWeekly

本文探讨了Adam优化算法中的beta1参数对学习率与批量大小之间关系的影响，发现其会使得Surge现象出现的概率降低，并且在β1接近1时，结果趋向于SignSGD。