大量数据归档

Adam的epsilon如何影响学习率的Scaling Law？

2024年12月1日22时作者 PaperWeekly

本文探讨了Adam优化算法中的beta1参数对学习率与批量大小之间关系的影响，发现其会使得Surge现象出现的概率降低，并且在β1接近1时，结果趋向于SignSGD。

2024年11月24日13时作者机器之心

Karpathy 认为强化学习早期决策是一个错误，并认为 LeCun 对强化学习的态度一直正确。LeCun 历年推崇的关键技术有无监督学习、自监督学习、Energy-Based SSL 和 Objective-Driven AI，他认为强化学习存在局限性，不适合作为实现人类水平智能的主要方法。