大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱

CMU研究发现,仅用监督微调训练的大模型在其他通用任务上的表现有限甚至退步。强化学习微调的模型则能更好地将数学能力迁移到推理和非推理任务上,预示着强化学习可能是实现可迁移推理的关键方法。

【Osmosis-Structure-0.6B】小模型大能量!这款小型语言模型如何轻松搞定结构化输出?

Osmosis-Structure-0.6B 是一款小型语言模型,专注于结构化输出生成。通过强化学习和大量结构化数据训练,在数学推理任务中表现出色,并在多个领域如智能客服、数据分析和教育辅导中有广泛应用。

高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

大模型在数学推理和解答题上表现参差不齐,多数模型在图像识别方面仍存在问题。总体来看,大模型在复杂推理、严谨论证及多步骤计算能力上有较大提升空间。

AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号

UC Berkeley团队提出的新方法Intuitor通过优化模型自身的置信程度来提升大模型的复杂推理能力,无需外部奖励信号或标准答案。与传统强化学习相比,Intuitor能有效减少无效响应并提高模型在数学和代码生成任务中的表现。