AIME基准测试
GPT4.5发布,价格是DeepSeek的280倍,他们是真没活了。
GPT-4.5发布引发期待与失望。参数表现上与前作相比变化不大,但准确度和诚实回答能力有所提升。价格方面显著高于竞争对手Claude等模型。总体评价中规中矩,难以达到高期待值。
仅817样本超越o1-preview,上交大LIMO”少即是多”推理新范式
LIMO提出了一种新的假设:基础模型中已全面编码领域知识,在预训练阶段通过最少但精心策划的认知过程可以激发复杂的推理能力。使用817个高质量问题和相应的推理链进行监督式微调的Qwen2.5-32B-Instruct模型在数学基准测试中的表现显著优于先前的工作。