监督学习
苹果也在蒸馏大模型,给出了蒸馏Scaling Laws
苹果研究人员提出蒸馏扩展定律,基于计算预算及其在学生和教师之间的分配,能够预测蒸馏模型的性能。该发现降低了大规模使用蒸馏的风险,并指导了优化教师和学生模型的计算资源以最大化学生模型性能的方法。
开源复现DeepSeek R1的文本到图谱抽取训练open-r1-text2graph
该项目基于Hugging Face Open-R1和trl构建,并重现了DeepSeek R1训练方案。通过合成数据生成、监督训练和强化学习(使用GRPO策略优化)等步骤,旨在提高模型进行文本到图信息提取的能力。