
聊一下阿里和中科大最新发布的关于LLM如何通过“自我学习”和“工具调用”来提升推理能力的论文——START。你有没有想过,那些看起来很聪明的AI模型,比如OpenAI的GPT系列,虽然能写出长篇大论,但在面对复杂的数学题或编程问题时,还是会像“学渣遇到高数题”一样抓狂?没错,它们经常因为计算能力不足而“幻觉”(hallucinate)——比如把“1+1”算成“3”,还理直气壮地说这是“量子力学的结果”。

-
论文:START: Self-taught Reasoner with Tools -
链接:https://arxiv.org/pdf/2503.04625
这篇论文提出了一个叫START的模型,它不仅会推理,还能像人类一样调用工具(比如Python解释器)来辅助自己。简单来说,START是一个“自带计算器”的AI,遇到复杂问题时,它会说:“等等,让我用Python算一下!”然后默默掏出代码编辑器,瞬间化身“学霸模式”。
方法
START的核心创新在于它的“自我修炼框架”,包含两个绝招:Hint-infer 和 Hint-RFT。

Hint-infer:小纸条
想象一下,你在考试时突然卡壳,监考老师偷偷递来一张纸条:“试试用勾股定理!”这就是Hint-infer的作用。START在推理时会随机插入一些人工设计的提示,比如:“等等,用Python可能是个好主意!”或者“这里需要自我检查哦~”这些提示就像给AI塞小抄,激活它调用外部工具的能力,而且完全不需要额外训练数据!更神奇的是,如果在推理末尾插入提示,还能让AI进入“深度思考模式”——思考时间越长,答案越准,堪称“拖延症患者的胜利”。
Hint-RFT:错题本
如果说Hint-infer是临时小抄,那么Hint-RFT就是AI的“错题本”。它会自动给模型的推理过程打分,过滤掉重复或错误的答案,然后通过微调让模型学会“下次别再犯”。
这就像学霸做完题后,自己批改作业,把易错点记在小本本上,下次遇到类似问题直接秒杀。
秘密武器:Hint-Library
为了应对不同任务,START还准备了一个“工具箱”——Hint-Library,里面装满了针对数学、编程等场景的提示模板。比如数学题提示会引导AI用Python验证逻辑,编程题提示则教AI如何用测试用例自我调试。
实验
为了验证START的实力,作者们给它安排了一场“地狱级考试”,涵盖数学竞赛题、博士级科学问答和编程挑战。
数学考试:AMC23满分学霸
在数学竞赛数据集AMC23上,START的准确率高达95.0%,比它的“前辈”QwQ-32B高出了15个百分点!秘诀就在于它能调用Python处理复杂计算,比如用代码验证数论问题,彻底告别“心算错误”。
科学问答:物理小能手
在博士级别的科学问答数据集GPQA上,START的物理题准确率达到80.0%,比QwQ高出6.2%。这是因为物理问题需要大量计算(比如能量转换),而START会默默掏出Python算个明白,而其他模型只能靠“脑补”。
编程考试:Debug狂魔
在编程挑战LiveCodeBench中,START在中等难度题上的准确率从46.0%飙升到84.6%。秘诀是它的“自我调试”能力——生成代码后自动运行测试用例,发现错误立刻修正,堪称“代码界的强迫症患者”。
隐藏技能:思考越久,成绩越好
作者还发现,通过Hint-infer增加AI的“思考时间”,模型准确率会显著提升(比如AIME24数据集上从50%涨到70%)。这就像考试时多检查几遍卷子,果然错误更少了!
结论:AI的工具箱时代
START通过“自我提示”和“工具调用”,成功解决了大型模型的幻觉和计算短板。它不仅能在数学、编程等任务中吊打前辈,还能通过自我反思不断进化。
未来的AI或许会像人类一样,随身携带“工具箱”——遇到数学题用计算器,写代码用调试器,甚至查资料用搜索引擎。而START正是这个方向的开拓者,为AI的“全能型学霸”之路打开了新大门。
(文:机器学习算法与自然语言处理)