速递｜伯克利团队450美元训练新推理模型，堪比OpenAI o1预览版

图片来源：Unsplash

所谓的推理 AI 模型变得越来越容易——也更便宜——开发。

在星期五，NovaSky，一个来自加州大学伯克利分校天空计算实验室的研究团队，发布了 Sky-T1-32B-Preview，这是一种在多个关键基准测试中与OpenAI 的 o1 早期版本具有竞争力的推理模型。Sky-T1 似乎是第一个真正的开源推理模型，因为它可以从头开始复制；该团队发布了他们用于训练的数据集以及必要的训练代码。

“值得注意的是，Sky-T1-32B-Preview 的训练成本不到 450 美元，”团队在一篇博客文章中写道，“这表明以经济高效的方式复制高级推理能力是可能的。”

450 美元可能听起来并不那么实惠。但不久前，训练一个性能相当的模型的价格标签通常在数百万美元之间。合成训练数据，或由其他模型生成的训练数据，帮助降低了成本。AI 公司 Writer 最近发布的 Palmyra X 004 模型几乎完全基于合成数据进行训练，开发成本 reportedly 仅为 700,000 美元。

与大多数人工智能不同，推理模型能够有效地自我核实，这帮助它们避免一些通常会使模型陷入困境的陷阱。与典型的非推理模型相比，推理模型通常需要更长的时间——通常是几秒到几分钟——才能得出解决方案。好处是，它们在物理、科学和数学等领域往往更可靠。

NovaSky 团队表示，他们使用了另一种推理模型，阿里巴巴的 QwQ-32B-Preview，来生成 Sky-T1 的初始训练数据，然后“策划”了数据混合，并利用 OpenAI 的 GPT-4o-mini 将数据重构为更易于使用的格式。训练 32 亿参数的 Sky-T1 大约花费了 19 小时，使用了一组 8 个 Nvidia H100 GPU。（参数大致对应于模型的解决问题能力。）

根据 NovaSky 团队的说法，Sky-T1 在 MATH500 上表现优于 o1 的早期预览版本，MATH500 是一个“竞赛级”数学挑战的集合。该模型在 LiveCodeBench 的一组难题上也超过了 o1 的预览版本，LiveCodeBench 是一个编码评估。

然而，Sky-T1 在 GPQA-Diamond 中比 o1 预览表现差，包含物理、生物和化学相关的问题，这些问题是博士毕业生应该知道的。

还需要注意的是，OpenAI 的 o1 GA 版本比 o1 的预览版本更强大，并且预计 OpenAI 在接下来的几周内将发布一个性能更好的推理模型 o3。

但 NovaSky 团队表示，Sky-T1 仅仅是他们开发具有高级推理能力的开源模型之旅的开始。

“展望未来，我们将专注于开发更高效的模型，以保持强大的推理性能，并探索进一步提高模型在测试时效率和准确性的先进技术，”团队在帖子中写道。“请继续关注我们在这些令人兴奋的计划上的进展。”

本文翻译自：TechCrunch, https://techcrunch.com/2025/01/11/researchers-open-source-sky-t1-a-reasoning-ai-model-that-can-be-trained-for-less-than-450/

编译：ChatGPT

——-

（文：Z Potentials）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复