预训练无了?手撕LLM+O1 强化学习后训练指南!! 下午2时 2024/12/19 作者 PaperAgent 原创超长文知识分享,手撕o1推理、RL、PPO等课程内容已帮助多名同学成功上岸LLM赛道。课程包含多卡训练实操、Pytorch实现代码等,适合零基础到进阶学员学习。