性能提升11.74%!腾讯优图提出激励推理,专攻复杂指令 2025年6月23日23时 作者 量子位 腾讯优图团队提出激励推理方法提升语言大模型处理复杂指令的能力,1.5B参数LLM实现11.74%性能提升。研究通过数据生产与强化学习培养模型深度推理能力,有效提升LLMs在复杂指令下的表现。