LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破
OpenAI发布强化微调(RFT)API,只需几十个高质量样本即可定制专家模型。相比标准指令调优,RFT通过成千上万epochs让模型学习新行为,稳定性提升。技术实现尚不明确,但已显示出在基础语言模型上的潜力。
OpenAI发布强化微调(RFT)API,只需几十个高质量样本即可定制专家模型。相比标准指令调优,RFT通过成千上万epochs让模型学习新行为,稳定性提升。技术实现尚不明确,但已显示出在基础语言模型上的潜力。