不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
上海AI Lab提出的新方法OREAL利用基于结果奖励的强化学习超越了DeepSeek,无需超大规模模型蒸馏。通过模仿正样本、偏好负样本并关注关键步骤,实现了数学推理任务上的显著提升,并开源训练数据和模型以促进研究对比。
上海AI Lab提出的新方法OREAL利用基于结果奖励的强化学习超越了DeepSeek,无需超大规模模型蒸馏。通过模仿正样本、偏好负样本并关注关键步骤,实现了数学推理任务上的显著提升,并开源训练数据和模型以促进研究对比。
上海AI Lab/清华哈工大/北邮团队的研究表明,通过改进Test-Time Scaling(TTS)方法,在数学推理任务上提升了小模型的性能。该研究发现最优的TTS方法高度依赖于具体的策略模型、过程奖励模型和问题难度。
香港中文大学、北京大学和上海AI Lab的研究者提出了一种结合思维链推理的新方法来提升自回归图像生成的质量和文本一致性,显著提高了图像生成的性能。
人工智能初创公司FEELING AI(云梧智能)近日完成新一轮数千万元融资,靖亚资本领投。公司以自研的多模态模型系统打造3D动态内容为核心的交互产品,团队成员来自港中文、清华等知名机构。
清华大学等团队提出PRIME方法,仅用8张A100,在不到10天时间训练出一个数学能力超过GPT-4o的7B模型Eurus-2-7B-PRIME,准确率提高显著。该方法采用隐式过程奖励解决大模型强化学习中的奖励稀疏问题,有望推动复杂推理能力提升。
上海AI Lab邵婧课题组提出一种新的大模型指纹识别方法REEF(Representation Encoding Fingerprints),能够在不改变模型性能的前提下精准检测未经授权的后续开发行为,给大模型开发团队提供了一种应对大模型侵权问题的新手段。