苹果发现模型蒸馏Scaling Law!教师模型并非越强越好

苹果最新研究发现模型蒸馏过程中学生模型和教师模型能力之间的幂律关系,揭示了不同参数量、蒸馏数据量以及不同能力的学生模型与教师模型的关系。