钱成归档 - 每时AI

首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路

下午4时 2025/04/28 作者机器之心

钱成博士提出了ToolRL方法，通过强化学习解决了大语言模型在使用工具时的泛化问题。该研究已在多个学术会议上发表，并由ACL Area Chair钱成领导。