英伟达大牛主讲!斯坦福吴恩达:大语言模型的后训练课程全网发布
最新课程:吴恩达「大语言模型后训练」上线。该课程详细讲解三种常见的后训练方法——监督微调、直接偏好优化和在线强化学习,并介绍如何利用这些方法提升LLM的性能。适合希望针对特定任务定制语言模型的开发者。
最新课程:吴恩达「大语言模型后训练」上线。该课程详细讲解三种常见的后训练方法——监督微调、直接偏好优化和在线强化学习,并介绍如何利用这些方法提升LLM的性能。适合希望针对特定任务定制语言模型的开发者。
吴恩达发布新课程介绍如何将LLM转化为能遵循指令的助手,课程内容涵盖三种后训练方法:监督微调、直接偏好优化与在线强化学习,并强调动手实践的重要性。
全球多所顶尖大学的研究论文被植入AI能读取的秘密指令以影响评分,引发学术诚信担忧。该技术被称为提示词注入攻击,可能破坏同行评审的公正性。学术界对此事反应不一,部分学者认为这是正当防卫,但多数人支持透明使用AI。
老黄现身与两位华人合影,Banghua Zhu加入英伟达Star Nemotron团队专注企业级智能体研发;Jiantao Jiao入职英伟达。两人曾共同创办Nexusflow,拥有深厚学术背景和丰富经验。英伟达正布局企业级智能体解决方案。
最近研究发现仅使用一个数学训练数据就能大幅提升大型语言模型在数学推理任务上的表现,论文提出了1-shot RLVR方法,并展示了其在多个数学和非数学推理任务上的应用效果。
斯坦福与华盛顿大学研究人员仅用50美元训练出一个性能堪比OpenAI模型的新模型s1,并开源了全部代码和数据。研究揭示,高效训练不依赖大量数据、复杂强化学习或高昂成本。
斯坦福大学和华盛顿大学的研究人员提出了一个新的测试时间扩展方法s1,仅使用1000个样本就实现了与OpenAI o1级别的预览性能。该方法通过预算强制来控制解码时间,并在数学问题上提升了27%的表现。
FlashInfer论文介绍了高效的注意力引擎技术,利用块稀疏和可组合格式解决KV缓存存储问题,并提供了自定义和负载均衡调度功能。