首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源
腾讯混元等联合提出的新模型UnifiedReward-Think能进行长链式推理,首次让奖励模型在视觉任务上真正 ‘学会思考’。该研究提出了三阶段训练框架,并展示了其在多个视觉任务中的出色表现和可靠性。
腾讯混元等联合提出的新模型UnifiedReward-Think能进行长链式推理,首次让奖励模型在视觉任务上真正 ‘学会思考’。该研究提出了三阶段训练框架,并展示了其在多个视觉任务中的出色表现和可靠性。
上海 AI Lab 开源的 Aether 项目通过三维时空建模和多模态融合技术,实现了生成式世界模型在虚拟数据上的出色表现,并具备对真实世界的零样本泛化能力。
专注AIGC领域的专业社区分享了PRIME(Process Reinforcement through IMplicit REwards)算法在训练数学能力强大的7B模型方面的进展,该方法仅用8张A100、花费一万左右的成本,在不到10天内高效训练出了一个超过GPT-4和Llama-3.1-70B的7B模型Eurus-2-7B-PRIME,实现美国IMO选拔考试AIME 2024中准确率提升至26.7%。
清华大学团队提出PRIME方法,仅用8张A100和约1万块花费训练出数学能力超过GPT-4、Llama-3.1-70B的Eurus-2-7B-PRIME模型,在美国IMO选拔考试中准确率达到26.7%,远超基线模型。该方法采用隐式过程奖励解决大模型强化学习中的关键问题,未来有望推动复杂推理能力提升。