业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术 上午11时 2025/03/30 作者 量子位 研究人员提出了一项新技术OThink-MR1,通过动态强化学习提升多模态语言模型的泛化推理能力。该技术结合了动态KL散度策略和精心设计的奖励模型,显著改善了模型在多种任务上的表现。