随机稳定边缘:重新审视SGD的稳定边缘 上午8时 2025/01/07 作者 NLP工程化 本文通过MINIBS和EOSS概念揭示SGD训练动态行为,挑战随机微分方程建模方法,强调噪声方向性和小批量损失景观的重要性。