几何推理归档

业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

上午11时 2025/03/30 作者量子位

研究人员提出了一项新技术OThink-MR1，通过动态强化学习提升多模态语言模型的泛化推理能力。该技术结合了动态KL散度策略和精心设计的奖励模型，显著改善了模型在多种任务上的表现。