李叶实验室归档

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

2025年6月5日23时作者量子位

近期清华大学团队提出的研究表明，在强化学习训练大模型时，仅使用20%的高熵token就能显著提升模型性能。研究指出80%低熵token会影响模型推理能力，并可能起到负面作用。