蒸馏技术归档

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

下午4时 2025/04/02 作者量子位

腾讯&苏州大学团队提出新框架RLVR，使用基于生成模型的软奖励提升大模型在医学、化学等多学科的能力。研究还开源了奖励模型和数据集，并指出未使用思维链推理方法仍需深入研究。

下午11时 2025/03/11 作者多知

网易有道通过自主研发的子曰翻译大模型2.0提升了翻译质量，在专业领域取得进展，并在有道词典、翻译官等产品中上线。

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

下午11时 2025/02/07 作者新智元

I！V3的Star数，如今已经碾压OpenAI最热门的项目。机器学习大神的一篇硬核博文，直接帮我们揭

上午8时 2025/02/07 作者量子位

研究团队通过蒸馏技术从阿里通义Qwen2.5-32B-Instruct模型出发，结合Gemini 2.0 Flash Thinking实验版数据集训练出高性能推理模型s1-32B，在数学评测集中表现优异。

下午2时 2025/01/30 作者 AI信息Gap

美国政府指控DeepSeek利用蒸馏技术从OpenAI模型中获取知识，OpenAI称其违反API使用条款，微软和OpenAI联合调查潜在的数据窃取行为。

下午11时 2025/01/29 作者智东西

国产AI模型DeepSeek-R1在Hugging Face开源社区迅速流行，下载量超70万次，引发美国海军和政府关注。其衍生模型数量每日增长30%，热度持续攀升。谷歌前CEO称这是全球AI发展的重要转折点，并推动Meta、Hugging Face等机构模仿DeepSeek的开发策略。

下午11时 2025/01/23 作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨猛猿
来源丨大猿搬砖简记
编辑丨极市平台
极市导读
探讨Deep