探索多模态后训练最优解：MiMo-VL稳健优化 v.s. Seed-VL激进革命

在多模态大模型的性能竞赛中，Post-training 正逐渐成为真正拉开差距的关键阶段。架构趋同之下，MiMo-VL 与 Seed-VL 两大系统在后训练链条上的策略博弈，展现了当前业界对指令对齐、强化学习与奖励建模的多种探索路径。

本文围绕 SFT、RLHF、奖励模型范式等核心模块，系统对比两者在数据构造、训练目标、优化技巧等方面的具体实现，梳理其在构建大规模多模态能力过程中各自的技术落点与思路差异，助你洞察下一代多模态模型的后训练演进趋势。

模型架构

基本主流的框架在架构上基本没有太大差别，ViT+MLP adater+LLM，主要的差别集中在两点：

1. 要不要使用自己训练的 ViT，MiMo-VL 使用了 Qwen2.5-ViT，而 Seed 使用了自己的 Seed-ViT。

2. adapter 之后要不要 pooling 或者 pixel shuffle，Qwen2 及之后的工作基本没有考虑 pooling，InternVL 一系列的工作 pixel shuffle 居多。

数据和训练策略

数据和策略的差别各家都很大：

Pretrain 阶段，M 使用了 2.4 trillion，分成四个阶段，涉及到的过滤 trick 可以拿出一页单讲。

## 图像数据
使用感知哈希技术去重，筛选高质量图像，通过专门模型重新生成描述，并构建中英双语元数据以优化描述分布。
## 图文交错数据
对文本、视频及其相关性进行综合评估和过滤。
## 视频数据
添加精确时间戳实现时间定位，平衡事件时长分布用于时间定位预训练，策划分析性段落增强模型对视频的深入理解。
## OCR数据
包含多样化文本内容，增加手写和变形文本提高识别难度，添加边界框标注使模型能同时预测文本位置。
## 定位数据
使用复杂对象表达式提升模型理解能力，采用绝对坐标表示确保定位准确性。
## GUI数据
收集各平台开源GUI数据，设计合成数据引擎弥补局限，分别收集元素定位和指令定位数据，统一不同平台的动作空间。
## 合成推理数据
策划多种问答任务的开源问题，实施多阶段质量控制，通过高保真数据集增强模型在多模态环境中的推理能力。

Seed 的 corpus 达到了 3 trillion，涉及到的 trick 更多，相比于 M 而言，点计数，3D 任务，科学工程似乎有着不错的占比，更加全面。训练策略有些微的差别，除了第一个 stafe 开放 MLP，剩下的 stage 全开。

### 通用图文对与知识数据
通用图文对数据规模巨大但存在噪声和类别不平衡问题，为此采用了多种过滤技术，包括相似度评分、图像/文本标准过滤和去重。针对长尾分布问题，通过实验发现限制常见物种样本数量能显著提升稀有物种识别性能。最终，通过使用VLM自动标注语义领域和命名实体，并对低频领域进行数据复制，实现了视觉概念的平衡分布，以增强视觉知识的学习。
### OCR 数据
构建了包含文档、场景文本、表格和流程图的亿级内部OCR训练数据集。该数据集通过收集真实页面、合成文本密集图像（包含多种字体和形变）、以及利用LLM生成合成图表和表格图像来丰富。此外，还构建了VQA数据集，通过VLM生成问答对并进行过滤，以增强模型对图像中文本信息的理解。
### 视觉定位与计数
视觉定位与计数能力主要通过边界框、点注释和计数数据进行训练。边界框数据来源于过滤后的开源数据集和大规模自动标注的web图像，涵盖了通用2D定位、空间关系问答和视觉提示问答等任务。点数据在现有基础上通过Molmo和CountGD流水线扩充，尤其擅长密集场景中的对象注释。计数数据则从边界框和点数据中采样生成。所有坐标值都进行了归一化处理，以确保模型在不同分辨率下的预测准确性。
### 3D空间理解
构建了针对相对深度排序、绝对深度估计和3D定位三类任务的数据。相对深度排序数据通过DepthAnything V2从互联网图像中推断得到；绝对深度估计数据来源于公共数据集，通过语义掩码确定实体绝对深度；3D定位数据则将公共数据集重构为提问对象3D位置的问答对，共同训练模型对3D空间的感知和理解。
### 视频数据
主要包括通用视频理解数据（视频字幕、问答、动作识别和定位）、视频时间定位与时刻检索数据（提升时间感知），以及视频流数据。视频流数据进一步细分为交错式字幕/问答数据（实时理解）、主动推理数据（持续监控和主动响应），以及实时评论数据（细粒度交错和实时更新），共同为视频训练打下全面基础。
### 科学、技术、工程和数学 (STEM) 数据
STEM数据通过抓取和手动标注方式收集，并分为图像理解数据和问题解决数据两大部分。图像理解数据包含教育定位样本、结构化表格、化学结构图和坐标系图，以及K12教育图像的人工和机器生成字幕、VQA对等。问题解决数据则涵盖了K12级别的习题、中文成人教育问题和英文图像相关问题。这些数据采用混合获取策略，确保了多模态覆盖和高质量。
### 图形用户界面 (GUI) 数据
GUI数据主要来自UI-TARS，旨在支持模型对GUI的鲁棒感知、定位和推理。数据集包含来自web、应用和桌面环境的屏幕截图，并配有结构化元数据（元素类型、边界框、文本和深度）。训练任务包括元素描述、密集字幕和状态转换字幕，以识别UI组件、理解布局和检测视觉变化。定位任务训练模型根据文本描述预测元素坐标。推理任务则收集多步骤任务轨迹，包括观察、中间思考和动作，使模型能够学习分步规划和反思。

Post-training 训练数据

大概可以分为 RLHF（奖励模型训练）以及 RL 两个阶段。

M 在两个阶段的数据源和数据量都不清楚，不过提到了平衡了中文和英文查询的比例，以及针对有用性和无害性的查询比例。

奖励模型的训练数据是每个 query 用 MiMo-VL-7B 和其他多个 MLLM 生成 response，然后使用另一个 MLLM 来进行排序打分，最终形成了一个 pairwise 的数据集用于奖励模型的训练。

这种多样性和数据集构造过程与我们的前期工作 mm-rlhf 类似，但是显然 M 团队选择了更容易 scale up 的 pipeline。RL阶段将混合的 reasoning，perception，定位，文本很多领域的数据一起扔进去。

S 的内容更丰富一些，RLHF 阶段基本采用了跟我们 MM—RLHF 数据 pipeline 一样的流程，单个 query 采样多个 response，5 级评分系统人工标注，不过他们会用 reward model 预打分提高效率，可以降低 scaling up 的成本。

除此之外还有一组合成数据，带有明确的 ground truth，知识考虑如何生成负样本，这种操作在 mllm alignment 也很常见了（mpo，rlaif-v 等都是），ranking 非常明确，快速扩充数据量。

RL 的数据是从偏好数据拿出来的，同样的，观察到了 prompt 分布的覆盖范围对 RL 性能有关键影响，为了让训练数据更 balance，S 又来了一个小 trick：

1. 训练一个标签模型为 query 打标签；

2. 通过分层抽样确保不同能力类别之间的平衡；

3. 使用最先进的内部模型生成 K 个回答，根据 reward 的方差应用过滤标准：如果K个回答的最大奖励和平均奖励之间的差异低于预定义的阈值，则排除这些提示。这一步确保了保留那些奖励模型具有显著区分能力的 query；

4. 在 RL 训练的初期，对那些奖励和 KL 散度同时快速增加（表明任务难度较低）的 query 进行了降采样。

Post-training 奖励模型

M 采用了两个奖励模型，都是传统奖励模型，分别处理文本和多模态。

S 的奖励模型选择了 generative reward model（经过了相应的 sft）。输入问题，response 1，response 2，直接给出排序，核心观察是这种方法比传统的 Bradley-Terry 奖励建模更稳健、更优越，因为它直接处理 token 概率和回答比较。这个思路和 R1-reward 非常类似，因此我可以有一些扩展的猜测：

1. 首先 SFT 非常重要，为了验证这个 facotr 我做了一组小实验, 第一行直接用 qwen2.5 vl 写个 prompt 完成上述功能，第二行用 r1-reward 的训练数据（类似 seed 这种格式，从 mm-rlhf 等多个数据集构造的）sft 一轮，效果提升非常显著。

从而引发的还有一个小 trick，我把每组数据 chosen rejected 换个方向作为输入，效果还能再次提升。70.56 已经基本上接近目前的 sota r1-reward 的效果了。

2. 很容易想到的，这种范式非常适合做强化学习训练进一步提升，也就是先 think 再给出 answer，r1-reward 的性能增益也许就来自这方面，但是二者之间的差距看起来并没有那么大，而且会引入额外的计算开销。

Post-training 训练目标

M 的训练目标直接使用了 GRPO 没有其他改进，但，在训练过程中提出了 Reward-as-a-Service 的概念，让一个 router 根据任务类型自己判断选择哪个 reward function，不过不知道具体是怎么实现的。

类似于 M，S 也采用了 rule base+reward model base 混合训练的策略：

1. STEM（科学、技术、工程和数学）主要使用 rule based reward，其实主要也是数学问题。不过有两个 tric，移除 choice 防止模型随机猜测，然后每个问题生成 16 个回答，丢弃那些 SFT 模型准确率为 0% 或超过 75% 的问题。这种过滤隔离了适合 RLVR 探索的具有挑战性的 query；

2. 除此之外，还混了一些定位，指令遵循，迷宫，互动游戏的样本。

混合强化学习的目标，PPO 的变体（很难评，因为不知道他是说混合 reward 还是训练目标本身变了），奖励函数分为了 format，hybrid reward（RM 忽略了 CoT thought 只关注 solution），critic model 还是存在（看来没用 grpo）。

同时还加入一个小 trick，每个 query 的 rollouts 数量不同，较难的 query 需要更全面的探索。对于由奖励模型奖励的每个提示，仅采样一次，而对于由验证器奖励的提示采样 4-8 次。

那么随之而来的我们会发现，他没有经过 long-cot 的 sft，所以 S 采取了另一个策略来弥补这个阶段能带来的性能增益，毕竟更强的冷启动 SFT 自然会导致 LongCoT RL 后的模型更强。简单说经过了四轮 SFT+RL，对每轮产出的 RL model

1. 每一轮通过他们的数据生成 pipeline 收集额外的 query；

2. 通过拒绝采样将能够正确回答的样本（为啥是正确而不像上面一样给个难度的 threshold 比如 passk 尚未可知）；

3. 人工去除 overthinking，repetition，以及语言上的缺陷。

然后 sft，rl 不断迭代。

结语

从长期来看，基于规则（rule-based）的训练策略在多模态场景下难以单独支撑复杂任务的泛化能力，奖励模型的设计与应用正逐步成为后训练阶段的核心关键。只有构建出足够稳健且可扩展的奖励建模机制，才能真正支撑多模态模型对多样化问题类型的适配与耦合（ORM coupling）。

目前来看，Post-training 阶段仍存在大量值得深入探索的问题——如何进行合理的数据配比？多轮 RL 的最优调度如何实现？哪些训练策略能够在性能与效率间取得更优折中？这些问题都需要通过大规模验证与系统性对比来不断迭代。

Seed-VL 的实践引入了大量 human expert 的参与，并在流程设计上融合了多层次的优化思路，这也为未来的框架设计提供了可借鉴的方向。

（文：PaperWeekly）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复