领域专家模型归档

LeCun八年前神预言，大模型路线再颠覆？OpenAI宣告：强化学习取得稳定性突破

下午2时 2024/12/23 作者新智元

OpenAI发布强化微调(RFT)API，只需几十个高质量样本即可定制专家模型。相比标准指令调优，RFT通过成千上万epochs让模型学习新行为，稳定性提升。技术实现尚不明确，但已显示出在基础语言模型上的潜力。