分布式训练
FP8训练新范式:减少40%显存占用,训练速度提高1.4倍
近期研究提出COAT方法利用FP8量化技术,通过动态范围扩展和混合粒度精度流优化大型模型训练中的内存占用和加速速度,保持模型精度的同时显著减少显存使用并提升训练效率。
榨干每一块 GPU!DeepSeek 开源第二天,送上降本增效神器
DeepSeek 开源周第二天,带来了 DeepEP 通信库,旨在优化混合专家系统和专家并行模型的高效通信。其亮点包括高效的全员协作通道、专为训练和推理预填充设计的核心以及灵活调控GPU资源的能力,显著提升MoE模型的性能和效率。
最新!Yann LeCun:AI将成为超级智能,堪比新的文艺复兴,人类新的启蒙
老杨在全球演讲中强调,未来人工智能应是开源和分布式的。他指出基础模型必须开放且可访问,并建议通过合作建立全球分布式训练中心来推动AI发展。