爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了 2025年5月28日23时 作者 新智元 LM推理性能暴涨24.6%,一举颠覆传统的RL训练认知。 今早的一篇爆火论文,彻底颠覆了人们对「强化
边学边练,推理觉醒:LUFFY让强化学习即学即用! 2025年5月5日23时 作者 机器之心 AI模型训练中常见的两种策略——模仿学习和强化学习各有弊端。上海、西湖大学等团队提出LUFFY,结合两者优势,通过混合策略和策略塑形函数提升推理能力,实现即学即练的效果,已在GitHub开源。