成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏 上午8时 2025/02/07 作者 量子位 研究团队通过蒸馏技术从阿里通义Qwen2.5-32B-Instruct模型出发,结合Gemini 2.0 Flash Thinking实验版数据集训练出高性能推理模型s1-32B,在数学评测集中表现优异。