港科大Apple新研究:Tokens使用量减少,模型推理还更强了

Laser团队提出的新方法提升了大模型的推理效率与准确性,通过统一视角看待不同奖励设计、基于目标长度和阶跃函数的奖励机制以及动态且带有难度感知的目标调整,实现了在减少Tokens使用量的同时保持或提升准确率。