S1这个模型大概一千条数据，获得了跟 o1-preview 相似的结果

S1 这个模型用 6 美元成本，大概一千条数据获得了跟 o1-preview 相似的结果，而且观测到了跟 O1 和 R1 类似的 scaling 表现。

可能揭示了 o3-mini-low 和 o3-mini-high 是如何从 O3 蒸馏出来的，他们的方式是当 LLM 尝试用 “” 停止思考时，他们会强迫它继续思考，将其替换为 “Wait” 。

为了缩短或延长思考时间。它会开始质疑和反复核对答案。o3-mini-low 对比 o3-mini-high 可能也是用了这个方法蒸馏的 O3。他们可能训练了 3 个模型，每个模型有不同的平均思考时间。最终，这种行为训练到模型权重中，S1这个底模用的是Qwen2.5-32B-Instruct。

参考文献：
[1] 论文地址：https://arxiv.org/abs/2501.19393
[2] https://github.com/simplescaling/s1
[3] https://huggingface.co/simplescaling/s1-32B

（文：NLP工程化）