一项挑战认知的研究横空出世:斯坦福和华盛顿大学研究人员仅花费50美元就训练出了一个堪比OpenAI o1的推理模型!

这个名为s1的模型不仅在数学和编程能力测试上与o1和DeepSeek的R1表现相当,还开源了全部代码和训练数据。
这不禁让人好奇:AI模型训练真的需要烧那么多钱吗?
神奇的50美元训练费
斯坦福的研究人员用了一个出人意料的方法:从谷歌的Gemini 2.0 Flash思维实验模型中提取了1000个精心策划的问题和推理过程。
更让人惊讶的是,他们只用了26分钟就完成了训练,用的是16块H100 GPU。
这打破了我们对AI训练的固有认知:
-
不需要海量数据
-
不需要复杂的强化学习
-
不需要数百万美元的训练成本
核心技术细节
这个名为s1的项目包含了完整的训练代码和推理实现。
关键技术要点:
-
模型训练:
# 使用vLLM进行推理
from vllm import LLM, SamplingParams
model = LLM(
"simplescaling/s1-32B",
tensor_parallel_size=2,
)
# 设置采样参数
sampling_params = SamplingParams(
max_tokens=32768,
min_tokens=0,
stop_token_ids=stop_token_ids,
)
-
预算强制实现:
# 设置思考token上限
MAX_TOKENS_THINKING = 32000
# 设置忽略结束token的次数
NUM_IGNORE = 1
# 当模型要停止思考时插入Wait
ignore_str = "Wait"
prompt += o[0].outputs[0].text + ignore_str
研究团队在GitHub上开源了完整项目,包括:
-
评估脚本:
eval/
目录 -
数据创建脚本:
data/
目录 -
训练脚本:
train/
目录
训练揭秘
研究人员采用了三个关键标准来筛选训练数据:
-
质量控制:
-
移除任何API错误的问题
-
过滤格式问题,如ASCII图表、不存在的图片引用等
-
最终从51,581个样本中筛选出384个高质量样本
-
难度评估:
-
使用Qwen2.5-7B和Qwen2.5-32B进行测试
-
只保留两个模型都无法解决的问题
-
通过推理trace长度作为难度指标
-
多样性保证:
-
使用数学主题分类系统(MSC)进行主题分类
-
覆盖从几何到量子理论的50个不同领域
-
在每个领域随机采样,偏好更长的推理过程
评估结果
在标准基准测试上的表现:
# 评估命令示例
cd eval/lm-evaluation-harness
pip install -e .[math,vllm]
在AIME24数学竞赛测试中,s1模型展现出惊人的实力:
-
基础版达到50% 的准确率
-
使用预算强制技术后提升到56.7%
-
通过增加思考时间,最高可达57%
而在MATH500基准测试上,更是达到了93% 的高准确率。
在GPQA Diamond 上达到59.6%。
这个成绩已经非常接近OpenAI的o1-preview模型,而后者可能花费了数百万美元来训练。
已知问题
研究团队也公开了一些已知问题:
-
vLLM可能会抛出
ValueError: Token id XXXXX is out of vocabulary
-
这通常发生在使用预算强制且temperature=1时
-
解决方案是在
vllm/engine/llm_engine.py
中注释掉相关检查
「我们的目标是用最简单的方法实现强大的推理能力和测试时扩展。」团队在论文中这样写道。
这个开源项目完整展示了如何用最小的资源实现接近闭源大模型的性能。
S1 的开源推出引发了业内的热烈讨论。
Perplexity AI的CEO Aravind Srinivas表示:
「这个50美元的开源模型值得认真对待,即使其主张听起来很大胆。」
不过,这项研究也引发了一个深层次的思考:如果一个几百万美元的模型可以被50美元复制,那些大型AI实验室的「护城河」在哪里?
OpenAI已经对此做出回应,指控DeepSeek不当收集API数据用于模型蒸馏。
这显示出大型AI公司对这种低成本复制技术的担忧。
AI的 「平民化」时代,正在到来!
相关链接:
-
论文地址:https://arxiv.org/pdf/2501.19393
-
项目地址:https://github.com/simplescaling/s1
-
研究报告:https://tcrn.ch/4aMr0vS
-
作者:Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li等
(文:AGI Hunt)