跟大模型说:要多想。



-
论文:《s1: Simple test-time scaling》
-
论文链接:https://arxiv.org/abs/2501.19393
-
项目链接:https://github.com/simplescaling/s1
-
序列扩展,即后续计算依赖于先前的计算结果;
-
并行扩展,即计算独立运行。

-
AIME24 包含 30 个问题,这些问题来自 2024 年 1 月 31 日至 2 月 1 日举行的美国 AIME 数学竞赛。AIME 用来测试模型在算术、代数、计数、几何、数论、概率等领域的能力;
-
MATH500 是一个包含不同难度竞赛数学问题的基准;
-
GPQA Diamond 包含 198 个来自生物学、化学和物理学的博士级科学问题。





(文:机器之心)