被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

《Distilling the Knowledge in a Neural Network》是一篇更偏工程性改进的文章,但它提出了知识蒸馏这一概念,并显著提高了模型的性能。论文被Hinton、Oriol Vinyals和Jeff Dean等专家合写,但因其缺乏创新性和影响力,在2014年被NeurIPS拒收。