ICLR 2025 LLaVA-MoD:MoE蒸馏训练轻量化多模态大模型 下午12时 2025/03/15 作者 极市干货 本文提出了一种轻量化多模态语言模型LLaVA-MoD,通过稀疏专家混合架构和渐进式蒸馏策略,在2B规模下使其性能超过7B大模型8.8%,并在幻觉检测任务中超越教师模型。