Self-rewarding-reasoning-LLM:训练能自我奖励推理的大型语言模型 上午8时 2025/03/06 作者 NLP工程化 训练能自我奖励推理的大型语言模型,显著提升推理准确率最高达14.2%,并能自动修正错误。