社区供稿 | 3700 次预训练总结超参规律,开源海量实验,告别盲猜 下午2时 2025/04/17 作者 Hugging Face 参数优化至关重要。为了探究最佳超参数的规律,我们开展了大规模的实证研究,通过在不同配置上进行网格搜索
Adam的epsilon如何影响学习率的Scaling Law? 下午10时 2024/12/01 作者 PaperWeekly 本文探讨了Adam优化算法中的beta1参数对学习率与批量大小之间关系的影响,发现其会使得Surge现象出现的概率降低,并且在β1接近1时,结果趋向于SignSGD。