OpenAI 发布企业运用 AI 大模型的 7大场景

作者｜子川

来源｜AI先锋官

众所周知，OpenAI 提供两种类型的模型：推理模型（例如 o1 和 o3-mini）和GPT 模型（如 GPT-4o）。

那开发者面对这两种类型的模型该如何选择呢？

前段时间，OpenAI解读了o系列推理模型与效率型GPT系列模型的不同，从而进一步帮助开发者和企业能更好地选择适合自己的模型。

此外。OpenAI还分享了o系列7大实际应用场景，在这些实际案例中，一家金融分析平台通过o系列模型成功找出了影响收购的关键变更条款，帮助公司节省了7500万美元。

下面是全文解读：

推理模型与GPT模型的不同

与GPT模型相比，OpenAI的o系列模型在不同任务上表现出色，并需要不同的提示方式。

这两个模型系列并非孰优孰劣——它们只是各有所长。

OpenAI训练了o系列模型（”规划者”）来对复杂任务进行更长时间、更深入的思考，使它们能够有效地制定策略、规划复杂问题的解决方案，并基于大量模糊信息做出决策。

这些模型还能以高准确度和精确度执行任务，使它们在数学、科学、工程、金融服务和法律服务等通常需要人类专家的领域中表现理想。

另一方面，OpenAI的低延迟、更具成本效益的GPT模型（”工作马”）专为直接执行而设计。应用程序可能会使用o系列模型来规划解决问题的策略，而使用GPT模型来执行特定任务，特别是当速度和成本比完美准确性更重要时。

如何选择适合自己的模型？

你在使用过程中最关注的是什么？

速度和成本 → GPT模型更快且通常成本更低
执行明确定义的任务 → GPT模型能很好地处理明确定义的任务
准确性和可靠性 → o系列模型是可靠的决策者
复杂问题解决 → o系列模型能处理模糊和复杂问题

如果在完成任务时速度和成本是最重要的因素，且你的案例是由简单明确的任务组成，那么GPT模型是最适合的选择。

然而，如果准确性和可靠性是最重要的因素，且有非常复杂的多步骤问题需要解决，那么o系列模型可能更适合。

大多数AI工作流程会同时使用这两类模型——o系列用于智能规划和决策，GPT系列用于任务执行。

GPT-4o 和 GPT-4o 迷你模型将订单详细信息与客户信息进行分类，识别订单问题和退货政策，然后将所有这些数据点馈送到 o3-mini，以根据政策对退货的可行性做出最终决定。

何时使用推理模型

下面是OpenAI从客户和内部观察到的一些成功使用模式。这并不是对所有可能用例的全面回顾，而是测试 o 系列模型的一些实用指南。

1. 处理模糊任务

推理模型特别擅长处理有限信息或分散信息，通过简单的提示理解用户意图并处理指令中的任何空白。

实际上，推理模型通常会在做出无根据的猜测或尝试填补信息空白之前提出澄清问题。

“o1 的推理能力使我们的多智能体平台 Matrix 在处理复杂文档时能够生成详尽、格式良好且详细的响应。例如，o1 使 Matrix 能够通过基本提示轻松识别信用协议中受限支付能力下可用的篮子。以前的任何模型都无法达到如此高的性能。与其他模型相比，o1 在密集信用协议中 52% 的复杂提示上取得了更好的结果。”

— Hebbia，法律和金融人工智能知识平台公司

2. 大海捞针

当你传递大量非结构化信息时，推理模型擅长理解并提取最相关的信息来回答问题。

“为了分析一家公司的收购，o1 审查了数十份公司文件（如合同和租约），以找出可能影响交易的任何棘手条件。该模型的任务是标记关键条款，并在这样做的过程中，在脚注中确定了一项至关重要的“控制权变更”条款：如果公司被出售，它将必须立即偿还 7500 万美元的贷款。o1 对细节的极度关注使我们的 AI 代理能够通过识别关键任务信息来支持财务专业人士。”

— Endex，AI金融智能平台

3. 在大型数据集中发现关系和细微差别

OpenAI发现推理模型特别擅长推理复杂文档，这些文档有数百页密集的非结构化信息——如法律合同、财务报表和保险索赔。

这些模型特别擅长在文档之间找出相似之处，并基于数据中未明确表达的事实做出决策。

“税务研究需要综合多个文档以产生最终连贯的答案。我们将GPT-4o替换为o1，发现o1在推理文档之间的相互作用以得出任何单一文档中都不明显的逻辑结论方面表现更好。因此，通过切换到o1，我们看到端到端性能提高了4倍——令人难以置信。”

—Blue J，AI税务研究平台

推理模型还擅长推理微妙的政策和规则，并将其应用于手头任务以得出合理的结论。

“在金融分析中，分析师经常处理围绕股东权益的复杂情景，并需要理解相关的法律复杂性。我们用一个具有挑战性但常见的问题测试了来自不同提供商的约10个模型：融资如何影响现有股东，特别是当他们行使反稀释特权时？这需要推理融资前和融资后的估值，并处理循环稀释循环——顶级金融分析师需要花费20-30分钟才能解决的问题。我们发现o1和o3-mini可以完美地做到这一点！这些模型甚至生成了一个清晰的计算表，显示对10万美元股东的影响。”

–BlueFlame AI，投资管理AI平台

4. 多步骤智能规划

推理模型对智能规划和策略开发至关重要。

当推理模型用作”规划者”时，OpenAI看到了成功的案例，它会为问题制定详细的多步骤解决方案，然后根据是高智能还是低延迟更重要来选择和分配合适的GPT模型（”执行者”）进行每个步骤。

“我们在我们的代理基础设施中使用o1作为规划者，让它协调工作流中的其他模型来完成多步骤任务。我们发现o1非常擅长选择数据类型并将大问题分解成更小的块，使其他模型能够专注于执行。”

—Argon AI，制药行业AI知识平台

“o1为我们的工作AI助手Lindy提供了许多智能工作流程。该模型使用函数调用从您的日历或电子邮件中提取信息，然后可以自动帮助您安排会议、发送电子邮件和管理日常任务的其他部分。我们将所有曾经导致问题的智能步骤都切换到o1，并观察到我们的代理几乎在一夜之间变得完美无缺！”

—Lindy.AI，工作AI助手

5. 视觉推理

截至今日，o1是唯一支持视觉能力的推理模型。它与GPT-4o的区别在于，o1能够理解最具挑战性的视觉内容，如结构模糊的图表和表格，或图像质量较差的照片。

“我们为网上数百万产品自动进行风险和合规审查，包括奢侈珠宝仿制品、濒危物种和管制物质。GPT-4o在我们最难的图像分类任务上达到了50%的准确率。o1在不对我们的流程进行任何修改的情况下达到了令人印象深刻的88%准确率。”

—SafetyKit，AI驱动的风险和合规平台

从OpenAI自己的内部测试中，可以看到看到o1能够从高度详细的建筑图纸中识别装置和材料，以生成全面的材料清单。

OpenAI研究院观察到的最令人惊讶的事情之一是，o1可以通过在建筑图纸的一页上查看图例，并在没有明确指示的情况下正确地将其应用到另一页上，从而在不同图像之间找出相似之处。

下面您可以看到，对于 4×4 PT 木柱，o1 根据图例识别出“PT”代表压力处理。

6. 审查、调试和改进代码质量

推理模型能有效地审查和改进大量代码，通常在后台运行代码审查，考虑到模型的较高延迟。

“我们在GitHub和GitLab等平台上提供自动AI代码审查。虽然代码审查过程本身对延迟不敏感，但确实需要理解跨多个文件的代码差异。这正是o1真正闪光的地方——它能够可靠地检测到人类审查者可能忽略的代码库的微小变化。在切换到o系列模型后，我们能够将产品转化率提高3倍。”

—CodeRabbit，AI代码审查初创公司

虽然GPT-4o和GPT-4o mini可能因其较低的延迟而更适合编写代码，但也看到o3-mini在延迟要求稍低的代码生成用例中表现出色。

“o3-mini始终如一地生成高质量、结论性的代码，当问题定义明确时，即使对于非常具有挑战性的编码任务，也经常能得出正确的解决方案。虽然其他模型可能只适用于小规模、快速的代码迭代，但o3-mini在规划和执行复杂的软件设计系统方面表现出色。”

—Windsurf，由Codeium构建的协作智能AI驱动IDE

7. 评估和基准测试其他模型响应

OpenAI还发现推理模型在基准测试和评估其他模型响应方面表现良好。数据验证对确保数据集质量和可靠性非常重要，特别是在医疗保健等敏感领域。

传统的验证方法使用预定义的规则和模式，但像o1和o3-mini这样的高级模型可以理解上下文并推理数据，为验证提供更灵活、更智能的方法。

求稍低的代码生成用例中表现出色。

“许多客户在Braintrust的评估过程中使用LLM作为评判者。例如，一家医疗保健公司可能使用像gpt-4o这样的工作马模型总结患者问题，然后用o1评估摘要质量。一位Braintrust客户看到评判者的F1分数从4o的0.12提高到o1的0.74！在这些用例中，他们发现o1的推理在发现完成之间的细微差别方面是一个改变游戏规则的因素，特别是对于最困难和最复杂的评分任务。”

—Braintrust，AI评估平台

如何有效地提示推理模型

这些模型在简单直接的提示下表现最佳。一些提示工程技术，如指示模型”逐步思考”，可能不会增强性能（有时甚至会阻碍它）。

以下是一些提示技巧的最佳实践

开发者消息（developer messages）替代系统消息（system messages）：从o1-2024-12-17开始，推理模型支持开发者消息而非系统消息，以符合模型规范中描述的命令链行为。

保持提示简单直接：这些模型擅长理解和响应简短、清晰的指令。

避免思维链提示：由于这些模型内部执行推理，提示它们”逐步思考”或”解释你的推理”是不必要的。

使用分隔符增加清晰度：使用markdown、XML标签和章节标题等分隔符清晰地指示输入的不同部分，帮助模型适当地解释不同部分。

先尝试零样本，需要时再使用少样本：推理模型通常不需要少样本示例就能产生良好的结果，所以尝试编写不带示例的提示。如果您对所需输出有更复杂的要求，在提示中包含几个输入和所需输出的示例可能会有所帮助。只需确保示例与提示指令非常一致，因为两者之间的差异可能会产生不良结果。

提供具体指导：如果有您明确希望限制模型响应的方式（如”提出预算低于500美元的解决方案”），请在提示中明确概述这些约束。

明确说明您的最终目标：在您的指示中，尝试为成功的响应提供非常具体的参数，并鼓励模型继续推理和迭代，

Markdown 格式：从 o1-2024-12-17 版本开始，推理模型的 API 默认不会输出带 Markdown 格式的内容。若你希望模型在回复中使用 Markdown，可在开发者消息（developer message）的第一行包含字符串 Formatting re-enabled，这样模型就知道你需要它以 Markdown 格式输出。

（文：AI先锋官）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30