随机稳定边缘:重新审视SGD的稳定边缘 上午8时 2025/01/07 作者 NLP工程化 本文通过引入小批量锐度(MINIBS)和随机稳定性边缘(EOSS)的概念,揭示了小批量SGD训练过程中的独特动态行为,即MINIBS而非全批量锐度稳定在2/η附近,从而解释了SGD的隐式正则化现象,并挑战了传统的基于随机微分方程的SGD建模方法,强调了噪声方向性和小批量损失景观的重要性。 参考文献:[1] https://arxiv.org/abs/2412.20553 (文:NLP工程化) 欢迎分享