RLVR归档 - 每时AI

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

下午4时 2025/04/26 作者新智元

奖励强化学习（RLVR）的认知。RLVR被认为是打造自我进化大模型的关键，但实验表明，它可能只是提高

下午4时 2025/03/12 作者智东西

缘
智东西3月12日报道，昨日，阿里通义实验室开源R1-Omni模型——
业界首个将具有可验证奖励的

下午11时 2025/01/10 作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨hadiii
来源丨https://zhuanlan.zhihu