单位名称未提及归档 - 每时AI

Self-rewarding-reasoning-LLM：训练能自我奖励推理的大型语言模型

上午8时 2025/03/06 作者 NLP工程化

训练能自我奖励推理的大型语言模型，显著提升推理准确率最高达14.2%，并能自动修正错误。