英伟达大牛主讲!斯坦福吴恩达:大语言模型的后训练课程全网发布 2025年7月11日14时 作者 Datawhale 最新课程:吴恩达「大语言模型后训练」上线。该课程详细讲解三种常见的后训练方法——监督微调、直接偏好优化和在线强化学习,并介绍如何利用这些方法提升LLM的性能。适合希望针对特定任务定制语言模型的开发者。