Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好 下午11时 2025/06/05 作者 量子位 近期清华大学团队提出的研究表明,在强化学习训练大模型时,仅使用20%的高熵token就能显著提升模型性能。研究指出80%低熵token会影响模型推理能力,并可能起到负面作用。