ICLR 2025 阿里等提出LLaVA-MoD,用MoE+蒸馏训练轻量化多模态大模型 下午4时 2025/03/07 作者 PaperWeekly 小模型的网络结构,并提出 Dense-to-Sparse 蒸馏框架,结合两阶段蒸馏策略(模仿蒸馏+偏