大语言模型的知识蒸馏(KD)应该用Reverse KL? 上午8时 2024/12/23 作者 PaperWeekly ©PaperWeekly 原创 · 作者 | Taki5 单位 | 香港大学 研究方向 | LLM