原来ChatGPT的惊艳表现不是靠「微调」,而是靠「后训练」!
谷歌DeepMind的资深研究员Shane Gu最近抛出了一个重磅观点:后训练(Post-training)才是人工智能进化的关键。
这个说法立刻在AI圈引发热议。为什么?因为它颠覆了我们对AI训练的传统认知!
后训练≠微调:差别大了去了!
Shane解释说,很多人把后训练误认为是微调,这完全是个误解。
微调就像是给AI补习某一门特定的课程,而后训练则是教会AI如何更好地思考和学习。
他强调:
-
微调会破坏预训练成果,而后训练会尊重它
-
微调专注于特定任务,后训练则追求广泛的能力提升
-
微调调整底层技能,后训练优化高层能力
后训练其实是在线学习
Shane指出,后训练本质上就是在线学习。
这意味着什么?
就像自动驾驶汽车需要在实际道路上不断学习一样,AI也需要在实际应用中持续进化。从人类反馈到超人类反馈(比如数学和编程能力的提升),这个过程永无止境。
有意思的是,Shane还透露:GPT-3到ChatGPT-4的惊人进步(从30%提升到70%),很大程度上就是得益于这种在线学习机制。
后训练:不止于训练的训练
在Shane看来,后训练的外延远比我们想象的要广。
它包括:
-
建模:SFT、RM、RLHF等技术
-
评估和基准测试
-
提示工程
-
工具使用和代理功能
-
多模态和用户界面
他特别提到:ChatGPT的成功很大程度上是用户体验驱动的研究成果。
后训练才是AI进化的加速器!
而最新的OpenAI o1模型,也正是受益于ChatGPT后训练经验的反哺。
(文:AGI Hunt)