MLSys’25 极低内存消耗:用SGD的内存成本实现AdamW的优化性能 2025年2月27日16时 作者 机器之心 UT Austin 和 Meta AI 推出的 APOLLO 方法首次实现了在类 SGD 内存成本下训练大模型,显著降低内存需求并提升性能。