字节ReTool:用于大模型中战略性工具使用的强化学习 下午7时 2025/04/26 作者 PaperAgent 通过强化学习增强推理能力的ReTool在AIME2024上达到67.0%准确率,在与先进模型结合后进一步提升至72.5%,显著优于基线。