比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架 下午12时 2025/02/16 作者 机器之心 CoCoMix 是一种预训练框架,结合连续概念与稀疏自编码器学习的语义概念,通过交叉熵损失预测选定的概念,并将其混合到模型隐藏状态中,显著提升大型语言模型性能。