强化学习归档 - 第2页共40页

让多模态大模型「想明白再画」！港大等开源GoT-R1：强化学习解锁视觉生成推理新范式

2025年6月26日8时作者机器之心

间关系、多对象属性及复杂组合的指令时，仍面临挑战。
针对此，来自香港大学 MMLab、香港中文大学

2025年6月24日23时作者机器之心

本文提出了一种名为ToMAP的新模型，它结合了心智理论机制以增强语言模型在说服任务中的表现。通过引入反驳预测器和态度预测器两大模块，ToMAP能够预判对方可能提出的反论点并评估其态度变化，从而实现更具个性化、灵活性和逻辑性的说服过程。

2025年6月24日23时作者 PaperWeekly

下，
MiMo-VL
与
Seed-VL
两大系统在后训练链条上的策略博弈，展现了当前业界对指令对齐

2025年6月23日23时作者量子位

腾讯优图团队提出激励推理方法提升语言大模型处理复杂指令的能力，1.5B参数LLM实现11.74%性能提升。研究通过数据生产与强化学习培养模型深度推理能力，有效提升LLMs在复杂指令下的表现。

2025年6月22日16时作者量子位

清华大学与英伟达、斯坦福联合提出NFT（Negative-aware FineTuning）方案，通过构造隐式负向模型利用错误数据训练正向模型，使其性能接近强化学习。这一策略弥合了监督学习和强化学习的差距，且损失函数梯度等价于On-Policy条件下的GRPO算法。

2025年6月22日16时作者机器之心

可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎

2025年6月22日14时作者小兵的AI视界

伊利诺伊大学香槟分校开发的Time-R1模型通过三阶段强化学习训练提升了语言模型的时间推理能力，包括时间戳推断、事件排序和生成合理未来场景等任务。该模型在多个时间推理任务中表现优异，并开源了代码和数据集以促进研究和技术发展。

2025年6月21日23时作者新智元

行差距表现欠佳。研究者提出强化学习微调（RLFT），通过自我生成的推理链（CoT）优化模型，提升决策

2025年6月21日16时作者量子位

大模型掌握空间思考能力，结果直接实现空间推理任务新SOTA。
来自蚂蚁技术研究院自然语言组联合中科院