OpenAI连续12天发布会 Day 2：「强化微调」炸场，效果逆天，2024最大惊喜之一

刚刚OpenAI 宣布推出强化微调研究计划。强化微调是一种全新的模型定制技术，它允许开发者通过数十到数千个高质量任务的数据集，对模型进行针对性优化。这个技术将使人工智能在特定领域的复杂任务中表现得更为精准

Sam Altman 认为Reinforcement Fine-Tuning是2024最大的惊喜之一，这使得在特定领域创建专家模型变得非常容易，只需很少的训练数据

简单来说，强化微调（Reinforcement Fine-Tuning）是通过给予模型高质量任务数据和参考答案来强化其推理能力。

与传统微调不同，强化微调并不是简单地让模型“记住答案”，而是通过训练模型在特定领域中学会推理，找到正确答案。可以把它想象成给 AI 一套复杂的规则，让它通过实践和思考逐步掌握解决问题的方法。

这种微调方法使用两种数据集：一个是用于训练的微调数据集，另一个是用于验证的测试数据集。模型首先通过微调数据集进行学习，然后在测试数据集上验证其推理能力，发现不足后再调整。通过这种反复的自我推理、训练和验证，模型的能力会逐步提升，最终达到极高的专业水平。

这种方法不仅提高了模型解决相似问题的能力，还显著增强了在特定领域的准确性。比如法律、保险、医疗、金融和工程领域，这些任务通常有明确的“正确答案”，而强化微调正是应对这些场景的利器

这次计划的参与对象主要面向研究机构、大学以及企业，尤其是那些目前依赖专家进行高复杂性任务的组织。通过强化微调，这些组织将能够更有效地利用人工智能来辅助完成专业任务。

计划的亮点

符合条件的组织可以通过填写申请表来加入计划。申请表包含以下关键内容：

• 组织背景（如领域、目标任务描述）

• 当前使用的模型和方法（如 OpenAI 的 GPT-4o、Claude 3 系列等）

• 数据集合作意愿

申请地址：https://openai.com/form/rft-research-program/

OpenAI 表示，这项技术预计将在 2025 年初公开发布

强化微调研究计划的推出标志着 AI 应用进入了新的阶段。从泛化能力到领域专精，这一技术可能会深刻改变人工智能在专业领域的表现方式。而这一计划，也为愿意与 OpenAI 合作的组织提供了绝佳机会。未来，或许我们将看到更多由强化微调技术催生的创新应用场景

如果你是技术爱好者或从业者，这个研究计划值得深入关注

⭐

（文：AI寒武纪）