首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路 下午4时 2025/04/28 作者 机器之心 钱成博士提出了ToolRL方法,通过强化学习解决了大语言模型在使用工具时的泛化问题。该研究已在多个学术会议上发表,并由ACL Area Chair钱成领导。