Qwen2.5-32B-Instruct 归档

Open R1 项目进展第二期

2025年4月1日14时作者 Hugging Face

把 DeepSeek R1 缺失的部分补齐，特别是训练流程和合成数据。
https://github

2025年2月12日23时作者新智元

座。普林斯顿联手北大提出全新ReasonFlux框架，直接AIME上碾压o1-preiview。
仅

2025年2月7日8时作者 NLP工程化

S1模型以6美元成本获得与o1-preview相似结果，揭示了O3-mini-low和O3-mini-high的生成方式。

2025年2月5日16时作者机器之心

斯坦福大学和华盛顿大学的研究人员提出了一个新的测试时间扩展方法s1，仅使用1000个样本就实现了与OpenAI o1级别的预览性能。该方法通过预算强制来控制解码时间，并在数学问题上提升了27%的表现。