成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏 2025年2月7日8时 作者 量子位 研究团队通过蒸馏技术从阿里通义Qwen2.5-32B-Instruct模型出发,结合Gemini 2.0 Flash Thinking实验版数据集训练出高性能推理模型s1-32B,在数学评测集中表现优异。