s1K
李飞飞团队50美元训练出DeepSeek R1?
文章介绍了通过16块H100 GPU在26分钟内训练出低成本语言模型S1K的方法,该模型与OpenAI的o1系列和DeepSeek R1系列性能相当。但实际研究发现,论文核心是基于开源Qwen2.5-32B模型,进行小数据集监督微调,并非直接复制了DeepSeek R1。
仅1k样本超越o1,媲美DeepSeek-R1蒸馏模型,李飞飞新作s1发布
一种新的语言建模方法Test-time Scaling通过测试时增加额外计算来提升性能,作者李飞飞等新作S1提出了一种简单而有效的测试时扩展方法,并展示了其实用性。
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
斯坦福大学和华盛顿大学的研究人员提出了一个新的测试时间扩展方法s1,仅使用1000个样本就实现了与OpenAI o1级别的预览性能。该方法通过预算强制来控制解码时间,并在数学问题上提升了27%的表现。