DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的秘密揭开了 下午11时 2025/05/15 作者 机器之心 eek 已经发布了 V3 模型的 技术报告 ,但刚刚,他们又悄然发布了另一篇围绕 DeepSeek-
MLSys’25 极低内存消耗:用SGD的内存成本实现AdamW的优化性能 下午4时 2025/02/27 作者 机器之心 UT Austin 和 Meta AI 推出的 APOLLO 方法首次实现了在类 SGD 内存成本下训练大模型,显著降低内存需求并提升性能。