知识蒸馏
大,就聪明吗?论模型的“尺寸虚胖”
文章介绍了Gemma-3和DeepSeek V3在参数量上的对比,并指出模型效果不仅仅取决于参数大小。通过详细解释Dense和MoE架构的区别及其实际应用效果,强调了参数数量并不能直接反映模型性能优劣的观点。同时讨论了知识蒸馏技术如何让小模型继承大模型的能力,而不仅仅是关注模型的规模大小。
地平线提出AlphaDrive,首个基于GRPO强化学习和规划推理实现自动驾驶大模型
OpenAI的o1和DeepSeek的R1模型在复杂领域达到人类专家水平,AlphaDrive提出一种强化学习和推理训练框架用于自动驾驶规划,显著提升规划准确率并降低成本。
8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源
港科大Harry Yang团队联合Everlyn AI提出LightGen模型,仅需8张GPU训练即可实现近SOTA的高质量图像生成效果。该模型采用数据蒸馏和直接偏好优化策略,显著降低了数据规模与计算资源需求。
【榜单征集】AI共潮生·2025甲子引力X科技产业新风向|甲子引力X
2025年中国AI产业逐浪者榜单启动征集,旨在评选在多领域创新和落地的先锋企业。涵盖AI芯片、算力基础设施、大模型等七个子领域,要求公司主营业务属上述细分领域的非上市公司,并满足成立时间、融资情况及商业化进展等条件。
精度效率双冠王!时序预测新范式TimeDistill:跨架构知识蒸馏,全面超越SOTA
新智元报道
编辑:LRST
近期,来自美国埃默里大学、澳大利亚格里菲斯大学等多地的华人科研团队提出了一种跨架构知识蒸馏框架TimeDistill,将MLP作为学生模型,其他复杂先进架构(如Transformer和CNN)作为教师模型,通过蒸馏复杂模型的优势至轻量级模型,实现计算负担大幅降低的同时显著提升预测精度。
“智能自举”会成可能?两张图说清OpenAI 路线图及模型迭代思路
Sam Altman 更新了 OpenAI 的未来路线图,计划首先发布 GPT-4.5(Orion),随后实现核心目标,包括统一 o 系列和 GPT 系列模型并推出更高智能水平的 GPT-5。
被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用
《Distilling the Knowledge in a Neural Network》是一篇更偏工程性改进的文章,但它提出了知识蒸馏这一概念,并显著提高了模型的性能。论文被Hinton、Oriol Vinyals和Jeff Dean等专家合写,但因其缺乏创新性和影响力,在2014年被NeurIPS拒收。