随机稳定边缘:重新审视SGD的稳定边缘

本文通过引入小批量锐度(MINIBS)和随机稳定性边缘(EOSS)的概念,揭示了小批量SGD训练过程中的独特动态行为,即MINIBS而非全批量锐度稳定在2/η附近,从而解释了SGD的隐式正则化现象,并挑战了传统的基于随机微分方程的SGD建模方法,强调了噪声方向性和小批量损失景观的重要性。

参考文献:
[1] https://arxiv.org/abs/2412.20553


(文:NLP工程化)

欢迎分享

发表评论