本文通过引入小批量锐度(MINIBS)和随机稳定性边缘(EOSS)的概念,揭示了小批量SGD训练过程中的独特动态行为,即MINIBS而非全批量锐度稳定在2/η附近,从而解释了SGD的隐式正则化现象,并挑战了传统的基于随机微分方程的SGD建模方法,强调了噪声方向性和小批量损失景观的重要性。


参考文献:
[1] https://arxiv.org/abs/2412.20553
(文:NLP工程化)
本文通过引入小批量锐度(MINIBS)和随机稳定性边缘(EOSS)的概念,揭示了小批量SGD训练过程中的独特动态行为,即MINIBS而非全批量锐度稳定在2/η附近,从而解释了SGD的隐式正则化现象,并挑战了传统的基于随机微分方程的SGD建模方法,强调了噪声方向性和小批量损失景观的重要性。
参考文献:
[1] https://arxiv.org/abs/2412.20553
(文:NLP工程化)