内存瓶颈归档 - 每时AI

DeepSeek-V3再发论文，梁文锋署名，低成本训练大模型的秘密揭开了

下午11时 2025/05/15 作者机器之心

eek 已经发布了 V3 模型的
技术报告
，但刚刚，他们又悄然发布了另一篇围绕 DeepSeek-

MLSys’25 极低内存消耗：用SGD的内存成本实现AdamW的优化性能

下午4时 2025/02/27 作者机器之心

UT Austin 和 Meta AI 推出的 APOLLO 方法首次实现了在类 SGD 内存成本下训练大模型，显著降低内存需求并提升性能。