MLSys’25 极低内存消耗:用SGD的内存成本实现AdamW的优化性能 下午4时 2025/02/27 作者 机器之心 UT Austin 和 Meta AI 推出的 APOLLO 方法首次实现了在类 SGD 内存成本下训练大模型,显著降低内存需求并提升性能。