
目前,大模型推理领域的强化学习(如R1-Zero)主要面向数学和代码等任务,将其应用于开放式自然语言生成任务(如,机器翻译),面临着奖励设计困难、推理能力诱导不确定、泛化能力待验证等诸多未知的挑战。
针对这些难题,我们提出了 MT-R1-Zero,首次将 R1-Zero 范式成功扩展到机器翻译领域的实现。该方法无需监督微调或依赖思维链(CoT)等冷启动数据,仅通过对最终翻译结果度量反馈,进行端到端强化学习优化。

论文题目:
MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning
论文链接:
https://arxiv.org/abs/2504.10160
GitHub仓库:
https://github.com/fzp0424/MT-R1-Zero
研究团队:
浙江大学刘佐珠/吴健课题组、小红书NLP团队


核心方法
规则-度量混合奖励(Rule-Metric Mixed Reward)在机器翻译中应用 R1-Zero 的核心挑战在于评估的不确定性和输出的灵活性。我们创新性地提出了规则-度量混合奖励机制(Rule-Metric Mixed Reward):
1. 格式奖励(Format Reward):采用严格的格式检查,强制模型生成包含 <think> (思考过程) 和 <translate> (翻译结果) 标签的结构化输出,这保证了推理过程的可观察性。格式错误将受到固定惩罚,激励模型优先学习正确格式。

度量奖励(Metric Reward):一旦格式正确,则引入连续的翻译质量度量分数作为翻译质量奖励信号。我们探索了三种度量策略:
1. Reward-Lex(词汇优先):使用基于 N-gram 匹配的 BLEU 度量作为奖励,侧重词汇准确性。
2. Reward-Sem(语义优先):使用基于深度学习的语义感知模型 COMETKiwi-23 作为奖励,侧重语义保真度。
3. Reward-Mix(混合均衡):结合 Reward-Lex 与 Reward-Sem,旨在同时优化词汇和语义两个维度,寻求最佳平衡。

实验结果
7B 模型媲美闭源 SOTA:MT-R1-Zero-7B-Mix 在综合三大指标(BLEU, COMETKiwi, XCOMET)的平均分上达到 62.25,性能与顶级闭源模型 GPT-4o (61.86) 和 Claude-3.5-Sonnet (62.42) 旗鼓相当,展示了强大的综合翻译能力。
语义指标达到 SOTA:MT-R1-Zero-7B-Sem 专注于语义优化,在 COMETKiwi (72.07) 和 XCOMET (79.37) 上取得最佳分数,显著超越了包括 Claude-3.5 在内的所有基准模型。
小模型超越大模型:MT-R1-Zero-3B-Mix 的平均分 (57.81) 显著超越了同尺寸基线模型 TowerInstruct-7B-v0.2 (56.55)。MT-R1-Zero-3B-Sem 在 COMETKiwi (69.75) 上也超越了 远大于它的 LLaMA-3.1-70B (68.05)。
强大的泛化能力:在 OOD(分布外)测试中,仅在英汉数据上训练的 MT-R1-Zero-7B 模型,在日英、德英、德汉等任务上表现出优异的零样本泛化能力,XCOMET 分数显著优于同尺寸基线模型。


关键发现与洞见
奖励设置至关重要:奖励度量的选择(Lex, Sem, Mix)直接决定了模型的优化侧重和最终的翻译风格(词汇精准 vs. 语义流畅)。


推理长度先降后升:训练过程中,模型的回复长度通常先快速下降(学习格式和效率),然后随着思考过程的复杂化而缓慢上升,同时翻译质量持续提升。





开放与展望
MT-R1-Zero 证明了,即使在评估复杂、输出灵活的机器翻译任务上,纯粹的、基于度量的强化学习也是一条很有潜力的技术路径,希望这项工作能启发更多将RL应用于复杂自然语言生成任务的研究。
(文:PaperWeekly)