AI能自主出“竞赛题”了!港大&蚂蚁让大模型学会生成难题,水平已接近AIME

港大和蚂蚁的研究人员提出PromptCoT方法,利用思维链生成高质量问题数据,提高了模型训练的效果。他们基于Llama3.1-8B训练了一个问题生成模型,并用合成的问题数据训练了DeepSeek-R1-Distill-Qwen-7B模型,使其在MATH-500、AIME 2024以及AIME 2025上的表现优于大模型。

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果:计算最优的Test-Time Scaling

上海AI Lab/清华哈工大/北邮团队的研究表明,通过改进Test-Time Scaling(TTS)方法,在数学推理任务上提升了小模型的性能。该研究发现最优的TTS方法高度依赖于具体的策略模型、过程奖励模型和问题难度。