浙大×小红书发布MT-R1-Zero:强化学习重塑机器翻译,7B小模型媲美GPT-4o 下午4时 2025/04/17 作者 PaperWeekly MT-R1-Zero首次将R1-Zero范式扩展到机器翻译领域,通过规则-度量混合奖励机制实现无需监督微调的端到端强化学习优化。该方法在多项指标上超越了现有模型。