什么是Post-Training?

原来ChatGPT的惊艳表现不是靠「微调」,而是靠「后训练」!

谷歌DeepMind的资深研究员Shane Gu最近抛出了一个重磅观点:后训练(Post-training)才是人工智能进化的关键

这个说法立刻在AI圈引发热议。为什么?因为它颠覆了我们对AI训练的传统认知

后训练≠微调:差别大了去了!

Shane解释说,很多人把后训练误认为是微调,这完全是个误解。

微调就像是给AI补习某一门特定的课程,而后训练则是教会AI如何更好地思考和学习

他强调:

  • 微调会破坏预训练成果,而后训练会尊重它

  • 微调专注于特定任务,后训练则追求广泛的能力提升

  • 微调调整底层技能,后训练优化高层能力

后训练其实是在线学习

Shane指出,后训练本质上就是在线学习

这意味着什么?

就像自动驾驶汽车需要在实际道路上不断学习一样,AI也需要在实际应用中持续进化。从人类反馈到超人类反馈(比如数学和编程能力的提升),这个过程永无止境。

有意思的是,Shane还透露:GPT-3到ChatGPT-4的惊人进步(从30%提升到70%),很大程度上就是得益于这种在线学习机制。

后训练:不止于训练的训练

在Shane看来,后训练的外延远比我们想象的要广。

它包括:

  • 建模:SFT、RM、RLHF等技术

  • 评估和基准测试

  • 提示工程

  • 工具使用和代理功能

  • 多模态和用户界面

他特别提到:ChatGPT的成功很大程度上是用户体验驱动的研究成果

后训练才是AI进化的加速器!

而最新的OpenAI o1模型,也正是受益于ChatGPT后训练经验的反哺。

(文:AGI Hunt)

欢迎分享

发表评论