240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

东南大学、香港中文大学和蚂蚁集团的研究团队提出了一种名为LMM-R1的两阶段多模态基于规则强化学习框架,显著提升了小型多模态大模型的数学推理能力。该框架在仅需240元GPU成本下训练出性能卓越且适用于工业级应用的多模态模型。