LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了 上午8时 2025/05/29 作者 机器之心 本文一出,所有的大语言模型(LLM)+ 强化学习(RL)都要被质疑是否有意义了。 这周二,一篇来自华