字节Seed新作:模型合并如何改变大模型预训练范式 下午11时 2025/06/06 作者 机器之心 字节跳动提出预训练模型平均(PMA)技术,在不增加计算成本的情况下显著提升大模型性能。通过合并稳定期检查点,PMA能预测衰减阶段表现,节省资源并加速训练进程。