吴恩达推出LLM 后训练免费课程,覆盖三大调优方法:SFT、DPO、RL 2025年7月10日8时 作者 AGI Hunt 吴恩达发布新课程介绍如何将LLM转化为能遵循指令的助手,课程内容涵盖三种后训练方法:监督微调、直接偏好优化与在线强化学习,并强调动手实践的重要性。