1行代码改进大模型训练,Llama训练速度提升至1.47倍,全华人团队出品

研究人员提出Cautious Optimizers优化器,在不损害训练效果的情况下提升了大模型的训练效率47%,该优化器已在GitHub上开源。它通过引入掩蔽机制来避免参数更新方向与当前梯度方向相悖,从而加速了训练过程并保持了收敛特性。