R1风起,清华、港科大发布大模型强化推理技术最新全面综述 下午10时 2025/01/25 作者 PaperAgent 本文回顾了大型语言模型在推理能力方面的最新进展,从SFT到RLHF,再到ORM和PRM等技术的演变,讨论了测试时扩展的重要性,并介绍了各种增强LLMs推理能力的技术方法。