Adam的epsilon如何影响学习率的Scaling Law? 下午10时 2024/12/01 作者 PaperWeekly 本文探讨了Adam优化算法中的beta1参数对学习率与批量大小之间关系的影响,发现其会使得Surge现象出现的概率降低,并且在β1接近1时,结果趋向于SignSGD。