激励推理归档

性能提升11.74%！腾讯优图提出激励推理，专攻复杂指令

2025年6月23日23时作者量子位

腾讯优图团队提出激励推理方法提升语言大模型处理复杂指令的能力，1.5B参数LLM实现11.74%性能提升。研究通过数据生产与强化学习培养模型深度推理能力，有效提升LLMs在复杂指令下的表现。