得州大学奥斯汀分校归档

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

下午1时 2024/11/27 作者量子位

研究人员提出Cautious Optimizers优化器，在不损害训练效果的情况下提升了大模型的训练效率47%，该优化器已在GitHub上开源。它通过引入掩蔽机制来避免参数更新方向与当前梯度方向相悖，从而加速了训练过程并保持了收敛特性。