62.25分归档 - 每时AI

浙大×小红书发布MT-R1-Zero：强化学习重塑机器翻译，7B小模型媲美GPT-4o

下午4时 2025/04/17 作者 PaperWeekly

MT-R1-Zero首次将R1-Zero范式扩展到机器翻译领域，通过规则-度量混合奖励机制实现无需监督微调的端到端强化学习优化。该方法在多项指标上超越了现有模型。