字节ReTool:用于大模型中战略性工具使用的强化学习 2025年4月26日19时 作者 PaperAgent 通过强化学习增强推理能力的ReTool在AIME2024上达到67.0%准确率,在与先进模型结合后进一步提升至72.5%,显著优于基线。