我们从Agent强化学习框架RL-Factory及多模态统一框架One-RL-to-See-Them-Al中能学到什么？

今天是2025年5月26日，星期一，北京，晴

我们今天继续看强化的一些问题，目前更多的是在工程框架层上做一些工作。

具体分成两个：

一个是从Agent智能体强化学习框架RL-Factory看工程设计，尤其是其中的multi-turn tool use。

另一个是从统一强化学习框架One-RL-to-See-Them-All看数据工程及奖励策略，尤其是引入课程式学习方式，进行目标检测任务的动态IOU奖励和困难样本选择策略。

这些都是从技术角度能够有所启发的点，多总结，多深入，终会有所收获。

一、从Agent智能体强化学习框架RL-Factory看工程设计

Agent训练框架进展，RL-Factory(RLFactory: Plug-and-Play RL Post-Training Framework for Empowering LLM Tool-Use,https://github.com/Simple-Efficient/RL-Factory)，图标长的很像llamafactory微调训练框架。

主要的infra是基于verl的，之所以将其与verl库分离而新建一个项目，出发点是希望专注于LLM tool use（尤其是multi-turn tool use），其包含两个核心的特征，工具调用能力训练以及多样的reward计算方式。

这类框架的工作，能够给我们启发的，其实是看他如何设计的，设计过程可以看：https://github.com/Simple-Efficient/RL-Factory/tree/main/docs/rl_factory/zh，里面也涉及到一些基本的概念解释，对工程化理解有帮助。

例如，为什么要做针对Multi-turn tool use的RL训练？的论述

又如，相关的概念辨析。

其中重点传递出来的，是对多轮工具训练的前沿方向，目前的框架越来越多，从脚本走向平台，是个大趋势。

二、从统一强化学习框架One-RL-to-See-Them-All看数据工程及奖励策略

强化学习进展，先看统一强化学习框架，One-RL-to-See-Them-All，目的是让视觉语言模型在单一训练框架中建模视觉推理和感知任务，支持8种任务（4推理+4感知），https://github.com/MiniMax-AI/One-RL-to-See-Them-All，https://github.com/MiniMax-AI/One-RL-to-See-Them-All/blob/main/MiniMax-One-RL-to-See-Them-All-v250523.pdf，我们分别从数据工程、模型选择、训练策略和可以借鉴的点几个角度来看这个工作

1、数据工程方面的工作

其中的数据构造策略，构造难样本以及正确样本的思路值得借鉴。

选择了四个推理任务（数学、拼图、科学和图表）和四个感知任务（检测、定位、计数和OCR）。数据来源包括mm_math、Geometry3k、mmk12、PuzzleVQA、AlgoPuzzleVQA、VisualPuzzles、ScienceQA、SciVQA、ChartQAPro、ChartX、Table-VQA、V3Det、Object365、D3、CLEVR、LLaVA-OV Data和EST-VQA。

数据过滤上应用了两阶段数据过滤过程：规则过滤和难度过滤。规则过滤去除不符合要求的样本，难度过滤去除过于简单或困难的样本。

视觉推理和视觉感知数据通过一个基于规则的过滤器，该过滤器会移除不符合预设标准的样本。随后，数据进入一个难度过滤器，该过滤器基于模型表现移除过于简单或过于困难的样本。具体的：

对于推理任务，使用Qwen2.5-VL-32B-0321来计算pass@8，只保留0≤pass@8<100% 的样本；

对于感知任务，特别是检测和定位任务，使用Qwen2.5-VL-7B和0.5的IoU阈值来计算pass@16，并选择累积IoU奖励在2到10之间的样本。

最终生成了47.7K高质量的样本。

2、模型选择上的工作

采用Qwen2.5-VL-7B-Instruct和Qwen2.5-VL-32B-Instruct作为基础模型。

3、训练策略上的工作

一个是使用动态GRPO算法，为视觉感知任务（如检测和定位）提供自适应、渐进和明确的反馈，即采用动态IoU奖励策略，在训练过程中逐步调整IoU阈值，以提供自适应、渐进和明确的反馈。

这个的底层逻辑在于，使用严格的IoU阈值（0.99）会增强感知和推理信号之间的一致性，但这个其严格的程度在早期展开中引入了冷启动问题，此时大多数预测获得0奖励，因此采用动态IOU策略，IoU阈值ϵ根据训练进度分阶段调整：在前10%的训练步骤开始时为0.85，在随后的15%步骤中增加到0.95（即从总步骤的10%到25%），最后在训练的其余时间内稳定在0.99。

一个是使用两种类型的验证器：MathVerifyVer-ifier和DetectionVerifier

3、可以借鉴的点

首先，课程学习的思路现在用的很多，无论是数据角度，还是阈值角度，还是超参角度，都可以按照这个思路去展开。

其次，如何设计不同的量化指标来量化模型行为？这个工作提出了几个，包括整体平均值、正确/错误响应的长度、截断率以及反射比率。其中，截断率（输出达到最大长度）可能表明过度冗长或生成崩溃。对于反射比率，跟踪15个预定义的与反射相关的单词（例如“重新检查”、“重新思考”、“验证”），然后计算包含这些反思词汇的回应比例；反思回应中的正确率：包含这些词汇的回应准确性。这有助于通过将反思与正确性联系起来，诊断模型倾向，如过度思考与表面回应。

最后，在结论侧。对于视觉推理任务，观察到随着任务难度的增加，性能有明显的提升趋势。随着训练的进行，神经序列长度和反射率的变化，类似于大型语言模型在测试时观察到的缩放律。然而，这些趋势在视觉感知任务中并不明显。推动感知性能提升的潜在因素仍然不清楚；在VLMs中进行强化学习主要作为一种对齐策略，它优化了模型的决策和响应行为，而不是促进新知识的获取。这支持了强化学习微调能够增强预训练VLMs的效用和鲁棒性，而不会改变它们的基础能力这一观点。

参考文献

1、https://arxiv.org/pdf/2505.13379

2、https://github.com/Simple-Efficient/RL-Factory

（文：老刘说NLP）

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

一、从Agent智能体强化学习框架RL-Factory看工程设计

二、从统一强化学习框架One-RL-to-See-Them-All看数据工程及奖励策略

参考文献

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复