速递|伯克利团队450美元训练新推理模型,堪比OpenAI o1预览版

图片来源:Unsplash
所谓的推理 AI 模型变得越来越容易——也更便宜——开发。
在星期五,NovaSky,一个来自加州大学伯克利分校天空计算实验室的研究团队,发布了 Sky-T1-32B-Preview,这是一种在多个关键基准测试中与OpenAI 的 o1 早期版本具有竞争力的推理模型。Sky-T1 似乎是第一个真正的开源推理模型,因为它可以从头开始复制;该团队发布了他们用于训练的 数据集以及必要的训练代码。
“值得注意的是,Sky-T1-32B-Preview 的训练成本不到 450 美元,”团队在一篇博客文章中写道,“这表明以经济高效的方式复制高级推理能力是可能的。”
450 美元可能听起来并不那么实惠。但不久前,训练一个性能相当的模型的价格标签 通常在数百万美元之间。合成训练数据,或由其他模型生成的训练数据,帮助降低了成本。AI 公司 Writer 最近发布的 Palmyra X 004 模型几乎完全基于合成数据进行训练,开发成本 reportedly 仅为 700,000 美元。
与大多数人工智能不同,推理模型能够有效地自我核实,这帮助它们避免一些通常会使模型陷入困境的陷阱。与典型的非推理模型相比,推理模型通常需要更长的时间——通常是几秒到几分钟——才能得出解决方案。好处是,它们在物理、科学和数学等领域往往更可靠。
NovaSky 团队表示,他们使用了另一种推理模型,阿里巴巴的 QwQ-32B-Preview,来生成 Sky-T1 的初始训练数据,然后“策划”了数据混合,并利用 OpenAI 的 GPT-4o-mini 将数据重构为更易于使用的格式。训练 32 亿参数的 Sky-T1 大约花费了 19 小时,使用了一组 8 个 Nvidia H100 GPU。(参数大致对应于模型的解决问题能力。)
根据 NovaSky 团队的说法,Sky-T1 在 MATH500 上表现优于 o1 的早期预览版本,MATH500 是一个“竞赛级”数学挑战的集合。该模型在 LiveCodeBench 的一组难题上也超过了 o1 的预览版本,LiveCodeBench 是一个编码评估。
然而,Sky-T1 在 GPQA-Diamond 中比 o1 预览表现差,包含物理、生物和化学相关的问题,这些问题是博士毕业生应该知道的。
还需要注意的是,OpenAI 的 o1 GA 版本比 o1 的预览版本更强大,并且预计 OpenAI 在接下来的几周内将发布一个性能更好的推理模型 o3。
但 NovaSky 团队表示,Sky-T1 仅仅是他们开发具有高级推理能力的开源模型之旅的开始。
“展望未来,我们将专注于开发更高效的模型,以保持强大的推理性能,并探索进一步提高模型在测试时效率和准确性的先进技术,”团队在帖子中写道。“请继续关注我们在这些令人兴奋的计划上的进展。”
本文翻译自:TechCrunch, https://techcrunch.com/2025/01/11/researchers-open-source-sky-t1-a-reasoning-ai-model-that-can-be-trained-for-less-than-450/
编译:ChatGPT
——-

(文:Z Potentials)

欢迎分享

发表评论