负向数据归档

监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

2025年6月22日16时作者量子位

清华大学与英伟达、斯坦福联合提出NFT（Negative-aware FineTuning）方案，通过构造隐式负向模型利用错误数据训练正向模型，使其性能接近强化学习。这一策略弥合了监督学习和强化学习的差距，且损失函数梯度等价于On-Policy条件下的GRPO算法。