被OpenAI带火的强化微调RFT技术解析~ 下午2时 2024/12/08 作者 PaperAgent OpenAI推出强化微调RFT技术,通过监督式微调和在线PPO算法进一步微调模型,在GSM8K等数据集上显著提升性能,相比传统SFT方法效果更优。