知识蒸馏归档 - 第2页共2页 - 每时AI

Springer知识蒸馏专著解读：面向图像识别的知识蒸馏综述

下午4时 2025/03/03 作者 PaperWeekly

dge Distillation: Towards New Horizons of Intellig

DeepSeek的“服务器繁忙”让所有人抓狂，背后究竟是怎么回事

下午12时 2025/02/13 作者硅星人Pro

服务器繁忙，请稍后再试”，正在让各地用户抓狂。
此前不太被大众所知的DeepSeek，因2024年1

被DeepSeek带火的知识蒸馏，开山之作曾被NeurIPS拒收，Hinton坐镇都没用

下午4时 2025/02/07 作者量子位

《Distilling the Knowledge in a Neural Network》是一篇更偏工程性改进的文章，但它提出了知识蒸馏这一概念，并显著提高了模型的性能。论文被Hinton、Oriol Vinyals和Jeff Dean等专家合写，但因其缺乏创新性和影响力，在2014年被NeurIPS拒收。

DeepMind最新研究：逆向思维训练LLM可大幅提升AI推理能力

下午2时 2024/12/29 作者机器学习算法与自然语言处理

Google DeepMind的研究表明逆向思维训练大模型（LLMs）能显著提升其推理能力，通过构建包含正反向问题的数据集并利用知识蒸馏框架优化模型。

终于等来能塞进手机的文生图模型！十分之一体量，SnapGen实现百分百的效果

下午12时 2024/12/25 作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

16种新型RAG最新进展

下午2时 2024/12/16 作者机器学习算法与自然语言处理

MLNLP
社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企

从答案到问题：一种新的学习目标让LLM更擅长推理

下午1时 2024/12/07 作者机器学习算法与自然语言处理

MLNLP社区介绍其愿景促进自然语言处理的学术与产业发展。介绍了REVTINH框架提高大模型推理能力的研究，通过数据增强和学习目标在多个数据集上显著提升表现。