450美元训出o1!伯克利开源o1-preview平替

400多刀就能训练一个可以挑战o1的开源大模型?

Berkeley 做到了!

UC Berkeley的天才们再次证明:成本并不是限制AI发展的关键

他们发布的Sky-T1-32B-Preview模型在多个基准测试中与OpenAI的o1-preview平分秋色。

让我们来揭秘这个「平民版o1模型」背后的技术细节。

强悍的性能指标

从评估结果来看,Sky-T1不仅没有辱没Berkeley的名声,反而展现出惊人的实力

  • Math500测试中得分82.4,不仅超过了Qwen的76.2分,还高于o1-preview的81.4分

  • AIME2024考试中得分43.3,与o1-preview的40.0分不相上下

  • LiveCodeBench系列测试中表现出色:

    • Easy级别:86.3分
    • Medium级别:56.8分
    • Hard级别:17.9分
  • GPQA-Diamond中拿到56.8分,虽然低于o1的75.2分,但已经超越了基础模型

训练方法大揭秘

Berkeley的研究团队采用了三步走战略

第一步:数据是关键

他们使用了一个巧妙的数据筛选机制

  • 使用QwQ-32B-Preview生成初始数据

  • 采用拒绝采样提升数据质量

  • 通过GPT-4o-mini重写数据格式

  • 最终筛选出17K条高质量数据

    • 5K条来自APPs和TACO的编程数据
    • 10K条来自AIME、MATH和NuminaMATH的数学题
    • 1K条来自STILL-2的科学和谜题数据

第二步:高效训练

团队选择了Qwen2.5-32B-Instruct作为基础模型,采用以下参数:

  • 3轮训练

  • 学习率1e-5

  • 批次大小96

  • 使用DeepSpeed Zero-3 offload

  • 8台H100 GPU

  • 19小时训练时间

  • 总成本不到450美元

第三步:全面评测

研究过程中,团队发现了几个重要规律

模型规模很重要

  • 7B和14B的小模型效果不理想

  • 以Qwen2.5-14B为例,在LiveCodeBench上只从42.6%提升到46.3%

  • 32B以下的模型容易出现重复内容

数据配比很关键

  • 单纯用3-4K数学题训练,AIME24准确率达43.3%

  • 加入编程数据后,准确率降到36.7%

  • 最终通过均衡数据,在两个领域都取得了好成果

开源造福社区

NovaSky团队完全开源了所有资源:

  • 基础设施:集成了数据构建、训练和评估的完整代码库

  • 训练数据:17K条精选数据集

  • 技术报告:包含wandb训练日志

  • 模型权重:完整的32B模型参数

未来展望

Berkeley团队表示,这只是他们在开源推理模型领域的第一步。他们计划:

  • 开发更高效的模型

  • 探索新技术提升测试时的效率和准确性

这个项目证明了:高水平AI研发不需要天价预算。

它为众多想要进入AI领域但苦于资源限制的研究者和开发者带来了新的希望。

相关链接

技术博客

Sky-T1: Train your own O1 preview model within $450

https://novasky-ai.github.io/posts/sky-t1/

模型权重

https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview

(文:AGI Hunt)

发表评论