优化器状态归档

FP8训练新范式：减少40%显存占用，训练速度提高1.4倍

下午12时 2025/03/07 作者机器之心

近期研究提出COAT方法利用FP8量化技术，通过动态范围扩展和混合粒度精度流优化大型模型训练中的内存占用和加速速度，保持模型精度的同时显著减少显存使用并提升训练效率。

下午4时 2025/02/24 作者机器之心

。
月之暗面和 DeepSeek 这次又「撞车」了。
上次是论文，两家几乎前后脚放出改进版的注意力机

下午2时 2025/02/24 作者 GiantPandaCV

cale-playbook
作者：nanotron
校正：pprp
Sequence Paralle