大模型靠强化学习就能无限变强?清华泼了一盆冷水
清华大学研究指出,强化学习虽能提升大模型在特定任务上的表现,但可能并未拓展其整体推理能力边界。研究通过pass@k评估发现基础模型在高尝试机会下也能追上甚至超越经过强化学习训练的模型。这表明当前RL技术主要提升的是采样效率而非新解法生成。
清华大学研究指出,强化学习虽能提升大模型在特定任务上的表现,但可能并未拓展其整体推理能力边界。研究通过pass@k评估发现基础模型在高尝试机会下也能追上甚至超越经过强化学习训练的模型。这表明当前RL技术主要提升的是采样效率而非新解法生成。
间。
责编 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
主持人:
大家好,我是
深入剖析R1-Zero训练方法,发现其已展现‘灵光一现’现象,并提出Dr. GRPO算法优化强化学习过程。仅用8×A100 GPU在27小时内实现SOTA性能。
第五届对抗机器学习Workshop将在2025年6月的CVPR会议上举行,主题为’基础模型+X’。研讨会旨在探讨基础模型及其特定领域应用中的鲁棒性挑战,并设立最佳论文奖等奖项吸引投稿。
一个月前你还很难想象OpenAI发布GPT的下一个大版本更新会这样自我定位,而当GPT4.5发布时一切都已经发生变化。它不再是行业叙事的大动作,更多带上了防御的感觉。GPT目前最大、知识最丰富的模型,在多个测试中表现优于其他模型。